본 논문은 여러 상호작용하는 에이전트 문제를 모델링하고 해결하기 위한 다중 에이전트 시스템(MAS) 분야의 연구를 기반으로 한다. 기존의 독립적으로 사전 훈련된 LLM의 한계와 각 에이전트의 협력을 장려하기 위한 복잡한 보상 설계의 필요성을 해결하기 위해, LLM 협업을 협력적 MARL 문제로 모델링한다. Multi-Agent Group Relative Policy Optimization (MAGRPO) 알고리즘을 개발하여 LLM 쓰기 및 코딩 협업에 대한 실험을 수행하고, 효과적인 협력을 통해 고품질의 응답을 효율적으로 생성할 수 있음을 입증한다.