본 논문은 단일 에이전트 기반의 기존 Test-time scaling (TTS) 방법들의 한계를 극복하기 위해 다중 에이전트와 다중 보상 모델을 활용한 Collective Test-Time Scaling (CTTS)을 제시합니다. 세 가지 주요 패러다임 (SA-MR, MA-SR, MA-MR)을 비교 분석하여 MA-MR이 최적임을 확인하고, 다중 에이전트 협업을 위한 Agent Collaboration Search (ACS)와 다중 보상 모델 협업을 위한 Mixture of Reward Models (MoR)을 포함하는 CTTS-MM 프레임워크를 제안합니다. MoR은 질문 풀과 Prior Reward model Ensemble Selection (PRES)을 이용하며, 최적의 보상 모델 조합은 Pair-wise Reward Ranking (PRR) metric으로 선택합니다. 7개의 주요 벤치마크 실험 결과, CTTS-MM이 우수한 성능을 보임을 확인했습니다.