Sign In

GRLO: Towards Generalizable Reinforcement Learning in Open-Ended Environments from Zero

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Shangjian Yin, Yu Fu, Yue Dong, Zhouxing Shi

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ°©λŒ€ν•œ μ—°μ‚° μžμ›μ΄ μš”κ΅¬λ˜λŠ” κΈ°μ‘΄ κ°•ν™”ν•™μŠ΅ 기반 λͺ¨λΈ ν›„μ²˜λ¦¬ λ°©μ‹μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³ μž ν•©λ‹ˆλ‹€. μ œμ•ˆν•˜λŠ” GRLOλŠ” μ†ŒλŸ‰μ˜ μƒν˜Έμž‘μš© 데이터와 맀우 적은 μ—°μ‚° μžμ›μœΌλ‘œλ„ λͺ¨λΈμ˜ μΌλ°˜ν™”λœ λŒ€ν™” λŠ₯λ ₯을 ν•™μŠ΅μ‹œν‚€κ³ , 이λ₯Ό μˆ˜ν•™μ  μΆ”λ‘  및 μ½”λ“œ 생성과 같은 ν•˜μœ„ νƒœμŠ€ν¬λ‘œ 암묡적 전이가 κ°€λŠ₯ν•œμ§€ νƒκ΅¬ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 GRLOλŠ” κΈ°μ‘΄ 방식 λŒ€λΉ„ 획기적으둜 적은 데이터와 μ—°μ‚° μžμ›μœΌλ‘œλ„ μš°μˆ˜ν•œ μ„±λŠ₯을 λ‹¬μ„±ν•˜λ©°, 더 높은 λΉ„μš©μ΄ μ†Œμš”λœ λ‹€λ₯Έ ν›„μ²˜λ¦¬ λͺ¨λΈκ³Ό κ²½μŸν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μΌλ°˜ν™”λœ λŒ€ν™” λŠ₯λ ₯ ν•™μŠ΅μ˜ νš¨μœ¨μ„±: 적은 데이터와 μ»΄ν“¨νŒ… μžμ›μœΌλ‘œλ„ λͺ¨λΈμ˜ μΌλ°˜ν™”λœ λŒ€ν™” λŠ₯λ ₯을 효과적으둜 ν•™μŠ΅ν•  수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
암묡적 전이 λŠ₯λ ₯: ν•™μŠ΅λœ λŒ€ν™” λŠ₯λ ₯이 μˆ˜ν•™μ  μΆ”λ‘ , μ½”λ“œ 생성 λ“± λ‹€μ–‘ν•œ ν•˜μœ„ νƒœμŠ€ν¬λ‘œ μ•”λ¬΅μ μœΌλ‘œ 전이될 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
좔가적인 도메인 νŠΉν™” ν•™μŠ΅μ˜ ν•„μš”μ„±: νŠΉμ • κ³ λ‚œλ„ λ²€μΉ˜λ§ˆν¬μ—μ„œλŠ” μ—¬μ „νžˆ 도메인 νŠΉν™” κ°•ν™”ν•™μŠ΅ ν›„μ²˜λ¦¬ 단계가 좔가적인 μ„±λŠ₯ ν–₯상을 κ°€μ Έμ˜¬ 수 있으며, μ΄λŠ” GRLOλ§ŒμœΌλ‘œλŠ” ν•΄κ²°λ˜μ§€ μ•ŠλŠ” ν•œκ³„μ μž…λ‹ˆλ‹€.
πŸ‘