Sign In

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models

Created by
  • Haebom
Category
Empty

μ €μž

Alexander W. Goodall, Francesco Belardinelli

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅(RL)의 μ•ˆμ „μ„± 보μž₯ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 회볡 기반 쉴딩(recovery-based shielding) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. κ°€μš°μ‹œμ•ˆ ν”„λ‘œμ„ΈμŠ€(GP) 동역학 λͺ¨λΈμ„ ν™œμš©ν•˜μ—¬ λΆˆν™•μ‹€μ„±μ„ μ •λŸ‰ν™”ν•˜κ³ , μ•ˆμ „ μ œμ•½ μœ„λ°˜ κ°€λŠ₯성을 μ˜ˆμΈ‘ν•˜λ©°, ν•„μš”ν•  λ•Œλ§Œ μ•ˆμ „ν•œ ꢀ적으둜 λ³΅κ΅¬ν•˜λŠ” λ°±μ—… μ •μ±…(shield)을 RL μ—μ΄μ „νŠΈμ™€ ν†΅ν•©ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 μ•Œλ €μ§€μ§€ μ•Šκ³  λΉ„μ„ ν˜•μ μΈ 연속 동적 μ‹œμŠ€ν…œμ—μ„œλ„ 증λͺ… κ°€λŠ₯ν•œ μ•ˆμ „ ν•˜ν•œμ„ κ°–λŠ” μ•ˆμ „ν•œ RL을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ•ˆμ „μ΄ μ€‘μš”ν•œ μ‘μš© λΆ„μ•Όμ—μ„œ κ°•ν™”ν•™μŠ΅μ˜ μ•ˆμ „μ„± 문제λ₯Ό ν•΄κ²°ν•  수 μžˆλŠ” 증λͺ… κ°€λŠ₯ν•œ μ•ˆμ „ ν•˜ν•œμ„ κ°€μ§„ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
κ°€μš°μ‹œμ•ˆ ν”„λ‘œμ„ΈμŠ€μ˜ λΆˆν™•μ‹€μ„± μ •λŸ‰ν™” λŠ₯λ ₯을 ν™œμš©ν•˜μ—¬ λ™μ μœΌλ‘œ μ•ˆμ „ν•œ ꢀ적으둜 λ³΅κ΅¬ν•¨μœΌλ‘œμ¨, ν•™μŠ΅ κ³Όμ •μ—μ„œμ˜ μ•ˆμ „μ„±μ„ ν™•λ³΄ν•˜κ³  μ •μ±… μ΅œμ ν™”λ₯Ό μš©μ΄ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
μ‹€ν—˜μ μœΌλ‘œ λ‹€μ–‘ν•œ 연속 μ œμ–΄ ν™˜κ²½μ—μ„œ λ›°μ–΄λ‚œ μ„±λŠ₯κ³Ό μ—„κ²©ν•œ μ•ˆμ „ κ·œμ • μ€€μˆ˜λ₯Ό λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ κ³Όμ œλ‘œλŠ” λ³΅μž‘ν•˜κ³  고차원적인 μ‹œμŠ€ν…œμ—μ„œμ˜ ν™•μž₯μ„± 및 쉴딩 λ©”μ»€λ‹ˆμ¦˜μ˜ 계산 λΉ„μš© μ΅œμ ν™” 등이 μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘