Sign In

Confounding Robust Continuous Control via Automatic Reward Shaping

Created by
  • Haebom
Category
Empty

μ €μž

Mateo Juliani, Mingxuan Li, Elias Bareinboim

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅(RL)의 ν•™μŠ΅ 속도λ₯Ό λ†’μ΄λŠ” 보상 μ„±ν˜•(reward shaping) κΈ°λ²•μ—μ„œ λ°œμƒν•˜λŠ” λ¬Έμ œμ μ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄, 잠재적으둜 κ΄€μ°°λ˜μ§€ μ•Šμ€ ν˜Όλž€ λ³€μˆ˜(confounding variables)에 μ˜€μ—Όλœ μ˜€ν”„λΌμΈ λ°μ΄ν„°μ…‹μœΌλ‘œλΆ€ν„° 연속 μ œμ–΄ λ¬Έμ œμ— λŒ€ν•œ 보상 μ„±ν˜• ν•¨μˆ˜λ₯Ό μžλ™μœΌλ‘œ ν•™μŠ΅ν•˜λŠ” 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆν•˜λŠ” 방법은 인과적 벨만 방정식(causal Bellman equation)을 기반으둜 졜적 μƒνƒœ κ°€μΉ˜(optimal state values)에 λŒ€ν•œ μƒν•œμ„ (tight upper bound)을 ν•™μŠ΅ν•˜κ³ , 이λ₯Ό 잠재 기반 보상 μ„±ν˜•(Potential-Based Reward Shaping, PBRS) ν”„λ ˆμž„μ›Œν¬μ˜ μž μž¬κ°’(potentials)으둜 ν™œμš©ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, μ œμ•ˆλœ 보상 μ„±ν˜• μ•Œκ³ λ¦¬μ¦˜μ€ Soft-Actor-Critic(SAC)κ³Ό ν•¨κ»˜ λ‹€μ–‘ν•œ 연속 μ œμ–΄ λ²€μΉ˜λ§ˆν¬μ—μ„œ μš°μˆ˜ν•œ μ„±λŠ₯을 보여주며, κ΄€μ°°λ˜μ§€ μ•Šμ€ ν˜Όλž€ λ³€μˆ˜ ν•˜μ—μ„œλ„ κ°•λ ₯ν•œ μ„±λŠ₯ 보증을 μ œκ³΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
핡심 μ‹œμ‚¬μ  1: κ΄€μ°°λ˜μ§€ μ•Šμ€ ν˜Όλž€ λ³€μˆ˜κ°€ μ‘΄μž¬ν•˜λŠ” λ³΅μž‘ν•œ 연속 μ œμ–΄ ν™˜κ²½μ—μ„œλ„ 효과적인 보상 μ„±ν˜• ν•¨μˆ˜λ₯Ό μžλ™μœΌλ‘œ ν•™μŠ΅ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
핡심 μ‹œμ‚¬μ  2: 인과적 μΆ”λ‘ μ˜ 원리λ₯Ό μ μš©ν•˜μ—¬ 보상 μ„±ν˜•μ˜ 이둠적 κΈ°λ°˜μ„ κ°•ν™”ν•˜κ³ , κ°•ν™”ν•™μŠ΅μ˜ μ‹ λ’°μ„±κ³Ό 강건성을 λ†’μ΄λŠ” λ°©ν–₯으둜 λ‚˜μ•„κ°‘λ‹ˆλ‹€.
β€’
ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제: μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ 이둠적 μ„±λŠ₯ 보증이 μ‹€μ œ λ³΅μž‘ν•œ λ¬Έμ œμ—μ„œ μ–΄λ–»κ²Œ ν™•μž₯될 수 μžˆλŠ”μ§€, 그리고 ν•™μŠ΅λœ 보상 μ„±ν˜• ν•¨μˆ˜μ˜ 해석 κ°€λŠ₯μ„± 및 λ‹€μ–‘ν•œ ν™˜κ²½μœΌλ‘œμ˜ μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘