본 논문은 StarCraft Multi-Agent Challenge (SMAC) 환경에서 다중 에이전트 강화 학습(MARL) 문제를 해결하기 위한 새로운 접근 방식인 SMAC-R1을 제시합니다. SMAC-R1은 DeepSeek-Coder-v2.5-236B에서 증류된 Qwen2.5-7B-Base LLM을 기반으로 하며, 작업 설명을 통해 의사결정 트리 코드를 생성하고 환경의 보상 피드백을 통해 에이전트를 자기 반영합니다. 생성된 스크립트를 사용하여 Qwen2.5-7B-Base LLM을 Supervised Fine-Tuning (SFT)으로 미세 조정하고, Group Relative Policy Optimization (GRPO) 알고리즘으로 스크립트 생성 능력을 향상시킵니다. 기존 23개의 SMAC 작업과 새롭게 디자인된 10개의 작업에서 실험을 수행하여 해석 가능하고 전이성이 강한 고품질 의사결정 트리를 최소한의 환경 탐색으로 생성할 수 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
환경과의 상호 작용 횟수를 최소화하면서 고품질의 해석 가능한 의사결정 트리를 생성할 수 있는 새로운 MARL 접근 방식 제시.
◦
생성된 스크립트의 강력한 전이성을 통해 동종 SMAC 환경에 수정 없이 적용 가능.
◦
의사결정 과제 해결 및 도메인 특정 LLM 교육 파이프라인에 대한 새로운 방향 제시.
•
한계점:
◦
DeepSeek-Coder-v2.5-236B와 같은 대규모 언어 모델을 기반으로 하므로, 계산 자원이 많이 필요할 수 있음.
◦
제시된 방법이 다른 MARL 환경이나 작업에 얼마나 잘 일반화될 수 있는지에 대한 추가 연구가 필요.