Sign In

CROP: Conservative Reward for Model-based Offline Policy Optimization

Created by
  • Haebom
Category
Empty

μ €μž

Hao Li, Xiao-Hu Zhou, Shu-Hai Li, Mei-Jiang Gui, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Zhen-Qiu Feng, Zeng-Guang Hou

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ˜€ν”„λΌμΈ κ°•ν™”ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” 뢄포 λ³€ν™”λ‘œ μΈν•œ 보상 κ³ΌλŒ€ν‰κ°€ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, λͺ¨λΈ 기반 접근법을 ν™œμš©ν•œ μƒˆλ‘œμš΄ μ•Œκ³ λ¦¬μ¦˜ CROP(Conservative Reward for model-based Offline Policy optimization)을 μ œμ•ˆν•©λ‹ˆλ‹€. CROPλŠ” μΆ”μ • 였λ₯˜μ™€ λ¬΄μž‘μœ„ ν–‰λ™μ˜ 보상을 λ™μ‹œμ— μ΅œμ†Œν™”ν•˜λŠ” κ°„μ†Œν™”λœ λͺ©ν‘œλ₯Ό μ„€κ³„ν•˜μ—¬, κ²¬κ³ ν•˜κ²Œ 보수적인 보상 μΆ”μ •μΉ˜λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ˜€ν”„λΌμΈ RL ν™˜κ²½μ—μ„œ 뢄포 λ³€ν™”λ‘œ μΈν•œ 보상 κ³ΌλŒ€ν‰κ°€ 문제λ₯Ό 효과적으둜 μ™„ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
보상 μΆ”μ • λ°©μ‹μ˜ κ°„λ‹¨ν•œ μˆ˜μ •λ§ŒμœΌλ‘œλ„ κΈ°μ‘΄ 방법둠과 경쟁λ ₯ μžˆλŠ” μ„±λŠ₯을 달성할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ¬΄μž‘μœ„ ν–‰λ™μ˜ 보상 μ΅œμ†Œν™”λΌλŠ” 아이디어가 보수적인 μ •μ±… 평가와 뢄포 λ³€ν™” 완화에 기여함을 이둠적으둜 λΆ„μ„ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ•Œκ³ λ¦¬μ¦˜μ˜ μ„±λŠ₯은 μ‹€ν—˜μ„ 톡해 κ²€μ¦λ˜μ—ˆμœΌλ‚˜, μ‹€μ œ 적용 μ‹œμ—λŠ” λͺ¨λΈμ˜ μ •ν™•μ„±κ³Ό 데이터 λΆ„ν¬μ˜ νŠΉμ„±μ— λ”°λ₯Έ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘