Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning
Created by
Haebom
저자
Can Jin, Hongwu Peng, Qixin Zhang, Yujin Tang, Dimitris N. Metaxas, Tong Che
개요
본 논문은 대규모 언어 모델(LLM) 기반의 다중 에이전트 시스템(MAS)을 이용하여 단일 에이전트 시스템으로는 해결하기 어려운 복잡한 실제 문제를 해결하는 방안을 제시합니다. 테스트 시간 확장(TTS)의 최근 발전이 단일 에이전트의 복잡한 추론 작업 성능을 크게 향상시켰지만, MAS에서 협업과 추론을 효과적으로 확장하는 방법은 여전히 미해결 과제입니다. 이 연구에서는 모델 수준의 훈련과 시스템 수준의 조정을 통해 협업 추론을 향상시키도록 설계된 적응형 다중 에이전트 프레임워크를 제시합니다. 500개의 다중 에이전트 협업 추론 추적을 포함하는 고품질 데이터셋 M500을 구성하고, 이 데이터셋으로 Qwen2.5-32B-Instruct를 미세 조정하여 다중 에이전트 협업에 최적화된 모델 M1-32B를 생성합니다. 적응형 추론을 더욱 가능하게 하기 위해, 에이전트 협업을 안내하고 더 효과적인 문제 해결을 위해 추론 깊이를 조정하는 새로운 CEO 에이전트를 제안합니다. 일반적인 이해, 수학적 추론, 코딩을 포함한 다양한 작업에 걸쳐 오픈소스 MAS에서 평가한 결과, 제안된 시스템은 강력한 기준 모델을 상당히 능가합니다. 예를 들어, M1-32B는 GPQA-Diamond에서 12%, AIME2024에서 41%, MBPP-Sanitized에서 10%의 성능 향상을 달성하며, 일부 작업에서는 DeepSeek-R1과 같은 최첨단 모델의 성능과 동등한 수준을 보입니다. 이러한 결과는 학습된 협업과 적응형 조정이 다중 에이전트 추론을 확장하는 데 중요함을 강조합니다. 코드는 https://github.com/jincan333/MAS-TTS 에서 이용 가능합니다.