본 논문은 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)의 복잡한 문제 해결 능력을 향상시키기 위해, 광범위한 탐색과 수렴적 합성을 효과적으로 균형을 이루는 새로운 프레임워크인 Maestro를 제안한다. Maestro는 다양한 탐색을 위한 병렬 실행 에이전트와 평가적 합성을 위한 중앙 에이전트를 활용하여 인지적 모드를 분리한다. 또한, 전략적 결정과 전술적 근거에 대한 신호를 분리하는 강화 학습 목표인 CLPO(Conditional Listwise Policy Optimization)를 도입하여, 정확한 크레딧 할당과 비교적 강력한 감독을 달성한다. 수학적 추론 및 일반적인 문제 해결 벤치마크에서 기존 SOTA(State-of-the-Art) 다중 에이전트 접근 방식보다 높은 성능을 보였다.