본 논문은 여러 상호 작용하는 에이전트 문제를 모델링하고 해결하기 위한 Multi-Agent Systems (MAS) 연구를 기반으로 한다. 기존 LLM은 독립적으로 사전 훈련되어 협력을 위해 최적화되지 않은 점, 그리고 개별 보상에 의존하는 LLM 미세 조정 프레임워크가 각 에이전트의 협력을 장려하기 위해 복잡한 보상 설계를 필요로 한다는 문제점을 해결하고자 한다. 이를 위해, LLM 협업을 협력적 Multi-Agent Reinforcement Learning (MARL) 문제로 모델링하고, Multi-Agent Group Relative Policy Optimization (MAGRPO)라는 다중 에이전트, 다중 턴 알고리즘을 개발하여 LLM을 위한 RL 접근 방식과 MARL 기술을 기반으로 문제를 해결한다. LLM 작문 및 코딩 협업에 대한 실험을 통해 MAGRPO를 사용하여 MAS를 미세 조정하면 에이전트가 효과적인 협력을 통해 고품질의 응답을 효율적으로 생성할 수 있음을 입증했다. 이 접근 방식은 다른 MARL 방법을 LLM에 적용할 가능성을 열어주고 관련 과제를 강조한다.