Sign In

Robust Regularized Policy Iteration under Transition Uncertainty

Created by
  • Haebom
Category
Empty

μ €μž

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang

πŸ’‘ κ°œμš”

λ³Έ 논문은 온라인 탐색 없이 μ•ˆμ „ν•˜κ³  데이터 효율적인 μ •μ±… ν•™μŠ΅μ„ κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” μ˜€ν”„λΌμΈ κ°•ν™”ν•™μŠ΅(RL)μ—μ„œ λ°œμƒν•˜λŠ” 뢄포 λ³€ν™”(distribution shift)둜 μΈν•œ μ„±λŠ₯ μ €ν•˜ 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ λ³Έ μ—°κ΅¬μ—μ„œλŠ” 전이 컀널을 λΆˆν™•μ‹€μ„± μ§‘ν•© λ‚΄μ˜ κ²°μ • λ³€μˆ˜λ‘œ μ·¨κΈ‰ν•˜κ³  μ΅œμ•…μ˜ 동역학에 λŒ€ν•΄ 정책을 μ΅œμ ν™”ν•˜λŠ” κ²¬κ³ ν•œ μ •μ±… μ΅œμ ν™”(robust policy optimization) λ°©μ‹μœΌλ‘œ μ˜€ν”„λΌμΈ RL을 κ³΅μ‹ν™”ν–ˆμŠ΅λ‹ˆλ‹€. μ œμ•ˆλœ Robust Regularized Policy Iteration (RRPI) μ•Œκ³ λ¦¬μ¦˜μ€ 닀루기 μ–΄λ €μš΄ max-min 이쀑 λͺ©ν‘œλ₯Ό 닀루기 μ‰¬μš΄ KL-μ •κ·œν™”λœ λŒ€λ¦¬ λͺ©ν‘œλ‘œ λŒ€μ²΄ν•˜κ³ , κ²¬κ³ ν•œ μ •κ·œν™” 벨만 μ—°μ‚°μžλ₯Ό 기반으둜 효율적인 μ •μ±… 반볡 절차λ₯Ό λ„μΆœν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ˜€ν”„λΌμΈ κ°•ν™”ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” μ •μ±… 유발 μ™Έμ‚½(policy-induced extrapolation) 및 전이 λΆˆν™•μ‹€μ„±(transition uncertainty) 문제λ₯Ό ν†΅ν•©μ μœΌλ‘œ λ‹€λ£¨λŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ Robust Regularized Policy Iteration (RRPI) μ•Œκ³ λ¦¬μ¦˜μ€ 이둠적 보μž₯κ³Ό ν•¨κ»˜ D4RL 벀치마크 μ‹€ν—˜μ—μ„œ μš°μˆ˜ν•œ μ„±λŠ₯κ³Ό 견고성을 μž…μ¦ν•©λ‹ˆλ‹€.
β€’
RRPIλŠ” 높은 인식 λΆˆν™•μ‹€μ„±(epistemic uncertainty) μ˜μ—­μ—μ„œ Q-값을 κ°μ†Œμ‹œμΌœ 정책이 전이 λΆˆν™•μ‹€μ„± ν•˜μ—μ„œ μ‹ λ’°ν•  수 μ—†λŠ” 뢄포 μ™Έ(out-of-distribution) 행동을 νšŒν”Όν•˜λ„λ‘ μœ λ„ν•©λ‹ˆλ‹€.
β€’
μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯μ„±κ³Ό 더 λ³΅μž‘ν•œ λΆˆν™•μ‹€μ„± 집합에 λŒ€ν•œ ν™•μž₯성이 ν–₯ν›„ 연ꡬ κ³Όμ œμž…λ‹ˆλ‹€.
πŸ‘