haebom
Sign In
Robust Regularized Policy Iteration under Transition Uncertainty
Created by
Haebom
Category
Empty
μ μ
Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μ¨λΌμΈ νμ μμ΄ μμ νκ³ λ°μ΄ν° ν¨μ¨μ μΈ μ μ± νμ΅μ κ°λ₯νκ² νλ μ€νλΌμΈ κ°ννμ΅(RL)μμ λ°μνλ λΆν¬ λ³ν(distribution shift)λ‘ μΈν μ±λ₯ μ ν λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€. μ΄λ₯Ό μν΄ λ³Έ μ°κ΅¬μμλ μ μ΄ μ»€λμ λΆνμ€μ± μ§ν© λ΄μ κ²°μ λ³μλ‘ μ·¨κΈνκ³ μ΅μ μ λμνμ λν΄ μ μ± μ μ΅μ ννλ κ²¬κ³ ν μ μ± μ΅μ ν(robust policy optimization) λ°©μμΌλ‘ μ€νλΌμΈ RLμ 곡μννμ΅λλ€. μ μλ Robust Regularized Policy Iteration (RRPI) μκ³ λ¦¬μ¦μ λ€λ£¨κΈ° μ΄λ €μ΄ max-min μ΄μ€ λͺ©νλ₯Ό λ€λ£¨κΈ° μ¬μ΄ KL-μ κ·νλ λ리 λͺ©νλ‘ λ체νκ³ , κ²¬κ³ ν μ κ·ν λ²¨λ§ μ°μ°μλ₯Ό κΈ°λ°μΌλ‘ ν¨μ¨μ μΈ μ μ± λ°λ³΅ μ μ°¨λ₯Ό λμΆν©λλ€.
π μμ¬μ λ° νκ³
β’
μ€νλΌμΈ κ°ννμ΅μμ λ°μνλ μ μ± μ λ° μΈμ½(policy-induced extrapolation) λ° μ μ΄ λΆνμ€μ±(transition uncertainty) λ¬Έμ λ₯Ό ν΅ν©μ μΌλ‘ λ€λ£¨λ μλ‘μ΄ νλ μμν¬λ₯Ό μ μν©λλ€.
β’
μ μλ Robust Regularized Policy Iteration (RRPI) μκ³ λ¦¬μ¦μ μ΄λ‘ μ 보μ₯κ³Ό ν¨κ» D4RL λ²€μΉλ§ν¬ μ€νμμ μ°μν μ±λ₯κ³Ό κ²¬κ³ μ±μ μ μ¦ν©λλ€.
β’
RRPIλ λμ μΈμ λΆνμ€μ±(epistemic uncertainty) μμμμ Q-κ°μ κ°μμμΌ μ μ± μ΄ μ μ΄ λΆνμ€μ± νμμ μ λ’°ν μ μλ λΆν¬ μΈ(out-of-distribution) νλμ ννΌνλλ‘ μ λν©λλ€.
β’
μ€μ νκ²½μμμ μ μ© κ°λ₯μ±κ³Ό λ 볡μ‘ν λΆνμ€μ± μ§ν©μ λν νμ₯μ±μ΄ ν₯ν μ°κ΅¬ κ³Όμ μ λλ€.
PDF 보기
Made with Slashpage