Sign In

Enabling Option Learning in Sparse Rewards with Hindsight Experience Replay

Created by
  • Haebom
Category
Empty

μ €μž

Gabriel Romio, Mateus Begnini Melchiades, Bruno Castro da Silva, Gabriel de Oliveira Ramos

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” ν¬μ†Œ 보상 ν™˜κ²½μ—μ„œ 계측적 κ°•ν™”ν•™μŠ΅(HRL)의 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ Hindsight Experience Replay (HER) λ©”μ»€λ‹ˆμ¦˜μ„ Option-Critic (OC) 및 Multi-updates Option Critic (MOC) ν”„λ ˆμž„μ›Œν¬μ— ν†΅ν•©ν•˜λŠ” MOC-HERλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 더 λ‚˜μ•„κ°€, 객체 μ‘°μž‘ μž‘μ—…κ³Ό 같이 보상이 객체의 μ΅œμ’… μƒνƒœλΏλ§Œ μ•„λ‹ˆλΌ μ—μ΄μ „νŠΈμ˜ μƒν˜Έμž‘μš©μ—λ„ μ˜μ‘΄ν•˜λŠ” λ³΅μž‘ν•œ μ‹œλ‚˜λ¦¬μ˜€λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, 객체의 μƒνƒœμ™€ μ—μ΄μ „νŠΈμ˜ μ΄νŽ™ν„°(effector) μœ„μΉ˜λ₯Ό λͺ¨λ‘ ν™œμš©ν•˜λŠ” 두 κ°€μ§€ 가상 λͺ©ν‘œλ₯Ό μƒμ„±ν•˜λŠ” Dual Objectives Hindsight Experience Replay (2HER)λ₯Ό κ°œλ°œν–ˆμŠ΅λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, μ œμ•ˆλœ MOC-2HERλŠ” κΈ°μ‘΄ MOC 및 MOC-HER λŒ€λΉ„ 객체 μ‘°μž‘ μž‘μ—…μ—μ„œ μ΅œλŒ€ 90%의 성곡λ₯ μ„ λ‹¬μ„±ν•˜λ©°, ν¬μ†Œ 보상 및 닀쀑 λͺ©ν‘œ μž‘μ—…μ—μ„œ λ“€μ–Ό λͺ©ν‘œ μž¬λ ˆμ΄λΈ”λ§ μ „λž΅μ˜ 효과λ₯Ό μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν¬μ†Œ 보상 ν™˜κ²½μ—μ„œ ν•™μŠ΅ κ°€λŠ₯ν•œ μ˜΅μ…˜μ˜ 탐색 및 ν™œμš© λŠ₯λ ₯을 크게 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.
β€’
객체 μ‘°μž‘κ³Ό 같이 λ³΅μž‘ν•œ μƒν˜Έμž‘μš©μ΄ ν•„μš”ν•œ μž‘μ—…μ—μ„œ HRL의 μ„±λŠ₯ ν•œκ³„λ₯Ό 극볡할 수 μžˆλŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ“€μ–Ό λͺ©ν‘œ μž¬λ ˆμ΄λΈ”λ§ μ „λž΅μ΄ μ–΄λ €μš΄ ν™˜κ²½μ—μ„œ μ—μ΄μ „νŠΈκ°€ λͺ©ν‘œλ₯Ό λ‹¬μ„±ν•˜λŠ” 데 ν•„μš”ν•œ μƒν˜Έμž‘μš©μ„ 더 효과적으둜 ν•™μŠ΅ν•˜λ„λ‘ μœ λ„ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 λ‹€λ₯Έ λ³΅μž‘ν•œ HRL μž‘μ—…μœΌλ‘œμ˜ ν™•μž₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘