Sign In

Progress Constraints for Reinforcement Learning in Behavior Trees

Created by
  • Haebom
Category
Empty

μ €μž

Finn Rietz, Mart Karta\v{s}ev, Johannes A. Stork, Petter Ogren

πŸ’‘ κ°œμš”

λ³Έ 논문은 행동 트리(Behavior Trees, BT)와 κ°•ν™” ν•™μŠ΅(Reinforcement Learning, RL)을 κ²°ν•©ν•  λ•Œ λ°œμƒν•˜λŠ” μ„±λŠ₯ μ €ν•˜ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 'μ§„ν–‰ μ œμ•½(progress constraints)'μ΄λΌλŠ” μƒˆλ‘œμš΄ λ©”μ»€λ‹ˆμ¦˜μ„ μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법은 이둠적인 BT 수렴 κ²°κ³Όλ₯Ό 기반으둜 κ°€λŠ₯ν•œ 행동 λ²”μœ„λ₯Ό μ œν•œν•˜μ—¬, 각 μ»¨νŠΈλ‘€λŸ¬κ°€ μƒν˜Έ 간섭을 일으켜 이전 λͺ©ν‘œλ₯Ό λ°©ν•΄ν•˜λŠ” 것을 λ°©μ§€ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, μ œμ•ˆ 방법은 κΈ°μ‘΄ BT-RL 톡합 방식보닀 μ„±λŠ₯, μƒ˜ν”Œ νš¨μœ¨μ„±, μ œμ•½ λ§Œμ‘±λ„ μΈ‘λ©΄μ—μ„œ ν–₯μƒλœ κ²°κ³Όλ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
행동 νŠΈλ¦¬μ™€ κ°•ν™” ν•™μŠ΅μ˜ 결합을 톡해 λ³΅μž‘ν•œ μ˜μ‚¬κ²°μ • 문제λ₯Ό κ΅¬μ‘°ν™”λœ λ°©μ‹μœΌλ‘œ ν•™μŠ΅ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ§„ν–‰ μ œμ•½ λ©”μ»€λ‹ˆμ¦˜μ€ RL ν•™μŠ΅ κ³Όμ •μ—μ„œ λ°œμƒν•  수 μžˆλŠ” λΉ„νš¨μœ¨μ μΈ 행동 탐색을 쀄여 ν•™μŠ΅ μ•ˆμ •μ„±κ³Ό νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€.
β€’
ν˜„μž¬λŠ” 2D ν™˜κ²½ 및 νŠΉμ • μ°½κ³  ν™˜κ²½μ—μ„œμ˜ μ‹€ν—˜ κ²°κ³Όλ§Œμ„ μ œμ‹œν•˜κ³  μžˆμ–΄, 더 λ‹€μ–‘ν•˜κ³  λ³΅μž‘ν•œ ν™˜κ²½μœΌλ‘œμ˜ μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘