LLM-MARL은 대규모 언어 모델(LLM)을 다중 에이전트 강화 학습(MARL)에 통합하여 시뮬레이션 게임 환경에서 조정, 의사소통 및 일반화를 향상시키는 통합 프레임워크입니다. 이 프레임워크는 하위 목표를 동적으로 생성하는 조정자(Coordinator), 상징적 에이전트 간 메시징을 용이하게 하는 의사소통자(Communicator), 에피소드 기억을 지원하는 메모리(Memory)의 세 가지 모듈식 구성 요소를 특징으로 합니다. 훈련은 언어 조건부 손실과 LLM 쿼리 게이팅을 사용하는 PPO를 결합합니다. LLM-MARL은 Google Research Football, MAgent Battle 및 StarCraft II에서 평가되었으며, 승률, 조정 점수 및 제로샷 일반화에서 MAPPO 및 QMIX보다 일관되게 향상된 결과를 보여줍니다. 절제 연구는 하위 목표 생성과 언어 기반 메시징이 성능 향상에 크게 기여함을 보여줍니다. 정성적 분석은 역할 전문화 및 의사소통 기반 전술과 같은 출현 행동을 보여줍니다. 이 연구는 언어 모델링과 정책 학습을 연결하여 상호 작용하는 시뮬레이션에서 지능적이고 협력적인 에이전트를 설계하는 데 기여합니다. 이는 훈련, 게임 및 인간-AI 협업에 사용되는 다중 에이전트 시스템에서 LLM을 활용하는 방법을 제시합니다.