Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs

Created by
  • Haebom
Category
Empty

저자

Wei Yang, Jiacheng Pang, Shixuan Li, Paul Bogdan, Stephen Tu, Jesse Thomason

개요

본 논문은 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)의 복잡한 문제 해결 능력을 향상시키기 위해, 광범위한 탐색과 수렴적 합성을 효과적으로 균형을 이루는 새로운 프레임워크인 Maestro를 제안한다. Maestro는 다양한 탐색을 위한 병렬 실행 에이전트와 평가적 합성을 위한 중앙 에이전트를 활용하여 인지적 모드를 분리한다. 또한, 전략적 결정과 전술적 근거에 대한 신호를 분리하는 강화 학습 목표인 CLPO(Conditional Listwise Policy Optimization)를 도입하여, 정확한 크레딧 할당과 비교적 강력한 감독을 달성한다. 수학적 추론 및 일반적인 문제 해결 벤치마크에서 기존 SOTA(State-of-the-Art) 다중 에이전트 접근 방식보다 높은 성능을 보였다.

시사점, 한계점

시사점:
다중 에이전트 시스템에서 탐색과 합성을 구조적으로 분리하는 새로운 프레임워크인 Maestro 제안.
크레딧 할당 문제를 해결하기 위한 CLPO라는 강화 학습 기법 도입.
수학적 추론 및 일반적인 문제 해결 벤치마크에서 기존 SOTA 대비 높은 성능 달성.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음. (논문 내용 요약에 기반)
👍