haebom
Sign In
CROP: Conservative Reward for Model-based Offline Policy Optimization
Created by
Haebom
Category
Empty
μ μ
Hao Li, Xiao-Hu Zhou, Shu-Hai Li, Mei-Jiang Gui, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Zhen-Qiu Feng, Zeng-Guang Hou
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μ€νλΌμΈ κ°ννμ΅μμ λ°μνλ λΆν¬ λ³νλ‘ μΈν 보μ κ³Όλνκ° λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, λͺ¨λΈ κΈ°λ° μ κ·Όλ²μ νμ©ν μλ‘μ΄ μκ³ λ¦¬μ¦ CROP(Conservative Reward for model-based Offline Policy optimization)μ μ μν©λλ€. CROPλ μΆμ μ€λ₯μ 무μμ νλμ 보μμ λμμ μ΅μννλ κ°μνλ λͺ©νλ₯Ό μ€κ³νμ¬, κ²¬κ³ νκ² λ³΄μμ μΈ λ³΄μ μΆμ μΉλ₯Ό μμ±ν©λλ€.
π μμ¬μ λ° νκ³
β’
μ€νλΌμΈ RL νκ²½μμ λΆν¬ λ³νλ‘ μΈν 보μ κ³Όλνκ° λ¬Έμ λ₯Ό ν¨κ³Όμ μΌλ‘ μνν μ μμ΅λλ€.
β’
보μ μΆμ λ°©μμ κ°λ¨ν μμ λ§μΌλ‘λ κΈ°μ‘΄ λ°©λ²λ‘ κ³Ό κ²½μλ ₯ μλ μ±λ₯μ λ¬μ±ν μ μμ΅λλ€.
β’
무μμ νλμ 보μ μ΅μνλΌλ μμ΄λμ΄κ° 보μμ μΈ μ μ± νκ°μ λΆν¬ λ³ν μνμ κΈ°μ¬ν¨μ μ΄λ‘ μ μΌλ‘ λΆμνμμ΅λλ€.
β’
μ μλ μκ³ λ¦¬μ¦μ μ±λ₯μ μ€νμ ν΅ν΄ κ²μ¦λμμΌλ, μ€μ μ μ© μμλ λͺ¨λΈμ μ νμ±κ³Ό λ°μ΄ν° λΆν¬μ νΉμ±μ λ°λ₯Έ μΆκ°μ μΈ μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage