본 논문은 StarCraft Multi-Agent Challenge (SMAC) 환경에서의 다중 에이전트 강화 학습(MARL) 문제를 해결하기 위해, DeepSeek LLM을 기반으로 의사결정 트리 코드를 생성하고, 이를 통해 Qwen2.5-7B-Base LLM을 fine-tuning하는 새로운 방법인 SMAC-R1을 제안합니다. 기존 MARL 알고리즘의 단점인 많은 학습 시간, 비해석성, 낮은 전이성을 극복하기 위해, 오프라인 학습과 온라인 강화 학습을 결합하여 DeepSeek LLM로 생성된 의사결정 트리 코드를 환경 피드백을 통해 개선하고, Supervised Fine-Tuning (SFT)와 Group Relative Policy Optimization (GRPO) 알고리즘을 사용하여 Qwen2.5-7B-Base LLM을 fine-tuning합니다. 실험 결과, SMAC의 기존 23개 과제와 새롭게 디자인된 10개 과제에서 고품질의 해석 가능한 의사결정 트리를 생성하고, 최소한의 환경 탐색으로 높은 성능을 달성하며, 동종 SMAC 환경에서의 강력한 전이성을 보여줍니다.