M-GRPO는 전문 분야 훈련 부족으로 정확도가 저하되는 문제점을 해결하기 위해, 각기 다른 LLM을 사용하는 다중 에이전트 시스템을 위한 hierarchical extension of Group Relative Policy Optimization(GRPO)를 제안합니다. M-GRPO는 메인 에이전트(플래너)와 여러 하위 에이전트(멀티턴 도구 실행자)를 포함하는 수직적 다중 에이전트 시스템을 위해 설계되었으며, 계층적 credit assignment를 유지하면서 메인 및 하위 에이전트 모두에 대해 group-relative advantages를 계산합니다. 또한, 가변적인 하위 에이전트 호출에도 불구하고 고정 크기 배치를 생성하는 trajectory-alignment scheme을 도입하고, 분리된 서버에서 에이전트를 실행하고 최소한의 통계를 공유하는 decoupled training pipeline을 배포하여 확장 가능한 훈련을 가능하게 합니다. M-GRPO는 실제 벤치마크에서 단일 에이전트 GRPO 및 frozen sub-agents를 사용하는 다중 에이전트 GRPO보다 일관되게 우수한 성능을 보이며, 이종 궤적 정렬 및 전문 에이전트 간의 최적화 분리가 도구-증강 추론 작업을 향상시킵니다.
시사점, 한계점
•
다중 에이전트 시스템에서 전문 분야별 훈련의 중요성을 강조하고, 개별 LLM 훈련의 필요성을 제기함
•
계층적 credit assignment를 통해 메인 및 하위 에이전트의 효율적인 학습을 가능하게 함
•
trajectory-alignment scheme을 통해 가변적인 하위 에이전트 호출 문제를 해결함
•
decoupled training pipeline을 통해 분산 환경에서 확장 가능한 학습을 가능하게 함