LLM 기반 다중 에이전트 시스템(LaMAS)은 복잡한 작업 수행 능력을 입증했으나, 기존 강화 학습(RL) 기법을 LaMAS 미세 조정에 적용하는 연구는 제한적이었다. 본 논문은 LLM 기반 MARL에 대한 연구를 수행하고, Multi-Agent Reinforcement Fine-Tuning (MARFT)이라는 새로운 패러다임을 제안한다. Flex-MG라는 새로운 평가 환경을 도입하고, LaMAS에 특화된 알고리즘 프레임워크를 제시한다. 또한, MARL과 MARFT의 차이점을 설명하고, 확장 가능한 MARFT 프레임워크를 개발하여 오픈소스로 공개한다.