Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning
Created by
Haebom
저자
Can Jin, Hongwu Peng, Qixin Zhang, Yujin Tang, Dimitris N. Metaxas, Tong Che
개요
본 논문은 대규모 언어 모델(LLM) 기반의 다중 에이전트 시스템(MAS)을 이용하여 단일 에이전트 시스템으로 해결하기 어려운 복잡한 실제 문제를 해결하는 방법을 제시한다. 테스트 시점 스케일링(TTS)의 최근 발전은 어려운 추론 작업에서 단일 에이전트 성능을 크게 향상시켰지만, MAS에서 협업과 추론을 효과적으로 확장하는 방법은 여전히 미해결 과제였다. 본 연구는 모델 수준의 훈련과 시스템 수준의 조정을 통해 협업적 추론을 향상시키도록 설계된 적응형 다중 에이전트 프레임워크를 제시한다. 500개의 다중 에이전트 협업 추론 추적을 포함하는 고품질 데이터셋 M500을 구성하고, 이 데이터셋으로 Qwen2.5-32B-Instruct를 미세 조정하여 다중 에이전트 협업에 최적화된 모델 M1-32B를 생성했다. 적응형 추론을 더욱 가능하게 하기 위해, 에이전트 협업을 안내하고 더 효과적인 문제 해결을 위해 추론 깊이를 조정하는 새로운 CEO 에이전트를 제안한다. 일반적인 이해, 수학적 추론, 코딩을 포함한 다양한 작업에 걸쳐 오픈소스 MAS에서 평가한 결과, 제안된 시스템은 강력한 기준 모델을 크게 능가한다. 예를 들어, M1-32B는 GPQA-Diamond에서 12%, AIME2024에서 41%, MBPP-Sanitized에서 10% 향상을 달성하며 일부 작업에서 DeepSeek-R1과 같은 최첨단 모델의 성능과 일치한다. 이러한 결과는 다중 에이전트 추론을 확장하는 데 있어 학습된 협업과 적응형 조정의 중요성을 강조한다. 코드는 https://github.com/jincan333/MAS-TTS 에서 이용 가능하다.