Large Language Model Guided Incentive Aware Reward Design for Cooperative Multi-Agent Reinforcement Learning

Author

Haebom

저자

Dogan Urgun, Gokhan Gungor

💡 개요

협력적 다중 에이전트 시스템에서 보조 보상 설계는 에이전트 간의 비효율적인 조정을 유발할 수 있는 문제점을 가지고 있습니다. 본 연구는 대규모 언어 모델(LLM)을 활용하여 환경 계측으로부터 실행 가능한 보상 프로그램을 자동으로 생성하는 프레임워크를 제안합니다. 제안된 방법은 유효성 검사를 거친 후보 프로그램들을 사용하여 처음부터 정책을 학습하고, 희소한 작업 보상만을 기준으로 세대에 걸쳐 보상 프로그램을 선택합니다.

🔑 시사점 및 한계

•

LLM을 활용한 자율 보상 설계는 수동 엔지니어링의 필요성을 줄이고 협력적 학습에 적합한 신호를 생성할 수 있습니다.

•

특히 상호작용 병목 현상이 심한 환경에서 보상 설계의 성능 향상을 가져왔습니다.

•

제안된 프레임워크는 고정된 계산 예산 하에서 작동하며, 이는 더 넓은 범위의 복잡한 환경으로 확장 시 고려될 수 있습니다.

PDF 보기

Made with Slashpage