Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

Created by
  • Haebom
Category
Empty

저자

Haoyang Hong, Jiajun Yin, Yuan Wang, Jingnan Liu, Zhe Chen, Ailing Yu, Ji Li, Zhiling Ye, Hansong Xiao, Yefei Chen, Hualei Zhou, Yun Yue, Minghui Yang, Chunxiao Guo, Junwei Liu, Peng Wei, Jinjie Gu

개요

M-GRPO는 전문 분야 훈련 부족으로 정확도가 저하되는 문제점을 해결하기 위해, 각기 다른 LLM을 사용하는 다중 에이전트 시스템을 위한 hierarchical extension of Group Relative Policy Optimization(GRPO)를 제안합니다. M-GRPO는 메인 에이전트(플래너)와 여러 하위 에이전트(멀티턴 도구 실행자)를 포함하는 수직적 다중 에이전트 시스템을 위해 설계되었으며, 계층적 credit assignment를 유지하면서 메인 및 하위 에이전트 모두에 대해 group-relative advantages를 계산합니다. 또한, 가변적인 하위 에이전트 호출에도 불구하고 고정 크기 배치를 생성하는 trajectory-alignment scheme을 도입하고, 분리된 서버에서 에이전트를 실행하고 최소한의 통계를 공유하는 decoupled training pipeline을 배포하여 확장 가능한 훈련을 가능하게 합니다. M-GRPO는 실제 벤치마크에서 단일 에이전트 GRPO 및 frozen sub-agents를 사용하는 다중 에이전트 GRPO보다 일관되게 우수한 성능을 보이며, 이종 궤적 정렬 및 전문 에이전트 간의 최적화 분리가 도구-증강 추론 작업을 향상시킵니다.

시사점, 한계점

다중 에이전트 시스템에서 전문 분야별 훈련의 중요성을 강조하고, 개별 LLM 훈련의 필요성을 제기함
계층적 credit assignment를 통해 메인 및 하위 에이전트의 효율적인 학습을 가능하게 함
trajectory-alignment scheme을 통해 가변적인 하위 에이전트 호출 문제를 해결함
decoupled training pipeline을 통해 분산 환경에서 확장 가능한 학습을 가능하게 함
실제 벤치마크를 통해 M-GRPO의 우수성을 입증함
논문에서 한계점은 명시적으로 언급되지 않음
👍