Sign In

Large Language Model Guided Incentive Aware Reward Design for Cooperative Multi-Agent Reinforcement Learning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Dogan Urgun, Gokhan Gungor

πŸ’‘ κ°œμš”

ν˜‘λ ₯적 닀쀑 μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ—μ„œ 보쑰 보상 μ„€κ³„λŠ” μ—μ΄μ „νŠΈ κ°„μ˜ λΉ„νš¨μœ¨μ μΈ 쑰정을 μœ λ°œν•  수 μžˆλŠ” λ¬Έμ œμ μ„ κ°€μ§€κ³  μžˆμŠ΅λ‹ˆλ‹€. λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)을 ν™œμš©ν•˜μ—¬ ν™˜κ²½ κ³„μΈ‘μœΌλ‘œλΆ€ν„° μ‹€ν–‰ κ°€λŠ₯ν•œ 보상 ν”„λ‘œκ·Έλž¨μ„ μžλ™μœΌλ‘œ μƒμ„±ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법은 μœ νš¨μ„± 검사λ₯Ό 거친 후보 ν”„λ‘œκ·Έλž¨λ“€μ„ μ‚¬μš©ν•˜μ—¬ μ²˜μŒλΆ€ν„° 정책을 ν•™μŠ΅ν•˜κ³ , ν¬μ†Œν•œ μž‘μ—… λ³΄μƒλ§Œμ„ κΈ°μ€€μœΌλ‘œ μ„ΈλŒ€μ— 걸쳐 보상 ν”„λ‘œκ·Έλž¨μ„ μ„ νƒν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM을 ν™œμš©ν•œ 자율 보상 μ„€κ³„λŠ” μˆ˜λ™ μ—”μ§€λ‹ˆμ–΄λ§μ˜ ν•„μš”μ„±μ„ 쀄이고 ν˜‘λ ₯적 ν•™μŠ΅μ— μ ν•©ν•œ μ‹ ν˜Έλ₯Ό 생성할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
특히 μƒν˜Έμž‘μš© 병λͺ© ν˜„μƒμ΄ μ‹¬ν•œ ν™˜κ²½μ—μ„œ 보상 μ„€κ³„μ˜ μ„±λŠ₯ ν–₯상을 κ°€μ Έμ™”μŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ ν”„λ ˆμž„μ›Œν¬λŠ” κ³ μ •λœ 계산 μ˜ˆμ‚° ν•˜μ—μ„œ μž‘λ™ν•˜λ©°, μ΄λŠ” 더 넓은 λ²”μœ„μ˜ λ³΅μž‘ν•œ ν™˜κ²½μœΌλ‘œ ν™•μž₯ μ‹œ 고렀될 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘