Sign In

Neuro-symbolic Action Masking for Deep Reinforcement Learning

Created by
  • Haebom
Category
Empty

μ €μž

Shuai Han, Mehdi Dastani, Shihan Wang

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ”₯ κ°•ν™” ν•™μŠ΅(DRL)μ—μ„œ λ°œμƒν•˜λŠ” λΉ„ν˜„μ‹€μ μΈ 행동 탐색 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ‹ κ²½-기호적 행동 λ§ˆμŠ€ν‚Ή(NSAM) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•œλ‹€. NSAM은 고차원 μƒνƒœμ— λŒ€ν•œ 기호 λͺ¨λΈμ„ μ΅œμ†Œν•œμ˜ 지도 ν•™μŠ΅μœΌλ‘œ μžλ™ ν•™μŠ΅ν•˜κ³ , 이λ₯Ό 기반으둜 λΉ„ν˜„μ‹€μ μΈ 행동을 λ°°μ œν•˜λŠ” 행동 마슀크λ₯Ό ν•™μŠ΅ν•œλ‹€. 이λ₯Ό 톡해 기호 μΆ”λ‘ κ³Ό λ”₯ μ •μ±… μ΅œμ ν™”λ₯Ό 쒅단 κ°„ ν†΅ν•©ν•˜μ—¬ μƒ˜ν”Œ νš¨μœ¨μ„±μ„ 높이고 μ œμ•½ μœ„λ°˜μ„ 쀄인닀.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
DRLμ—μ„œ λΉ„ν˜„μ‹€μ μΈ 행동 탐색 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ μ‹ κ²½-기호적 μ ‘κ·Ό 방식을 μ œμ‹œν•˜μ—¬ μƒ˜ν”Œ νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œν‚€κ³  μ œμ•½ μœ„λ°˜μ„ κ°μ†Œμ‹œμΌ°λ‹€.
β€’
고차원 μƒνƒœμ— λŒ€ν•œ 기호 λͺ¨λΈμ„ μžλ™ ν•™μŠ΅ν•˜κ³  행동 λ§ˆμŠ€ν‚Ήμ— ν™œμš©ν•¨μœΌλ‘œμ¨ κΈ°μ‘΄ μˆ˜λ™μ μΈ κΈ°λ²•μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν–ˆλ‹€.
β€’
기호 λͺ¨λΈ ν•™μŠ΅κ³Ό μ •μ±… ν•™μŠ΅ κ°„μ˜ μƒν˜Έ κ°•ν™” λ©”μ»€λ‹ˆμ¦˜μ€ DRL μ„±λŠ₯ ν–₯상에 λŒ€ν•œ μƒˆλ‘œμš΄ κ°€λŠ₯성을 보여쀀닀.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” λ³΅μž‘ν•˜κ³  동적인 μ œμ•½ 쑰건이 μžˆλŠ” ν™˜κ²½μ—μ„œμ˜ NSAM의 μ„±λŠ₯을 ν‰κ°€ν•˜κ³ , ν•™μŠ΅λœ 기호 λͺ¨λΈμ˜ 해석 κ°€λŠ₯성을 λ†’μ΄λŠ” λ°©μ•ˆμ„ 탐ꡬ할 ν•„μš”κ°€ μžˆλ‹€.
πŸ‘