본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위한 훈련 없는 접근 방식인 테스트 시간 스케일링(TTS)의 한계를 극복하기 위해 Collective Test-Time Scaling (CTTS)을 제안한다. CTTS는 기존의 단일 테스트 시간 스케일링(STTS) 패러다임을 벗어나, 다중 에이전트 및 다중 보상 모델의 협업을 통해 성능을 향상시키는 것을 목표로 한다. 이를 위해, SA-MR, MA-SR, MA-MR의 세 가지 상호작용 패러다임을 체계적으로 연구하고, MA-MR 패러다임의 우수성을 확인한다. CTTS-MM이라는 새로운 프레임워크를 제안하며, 에이전트 협업을 위한 Agent Collaboration Search (ACS)와 보상 모델 협업을 위한 Mixture of Reward Models (MoR) 전략을 통해 LLM의 성능을 극대화한다. CTTS-MM은 다양한 벤치마크에서 기존 STTS 방법 및 GPT-4.1과 같은 최첨단 LLM의 성능을 능가하는 우수한 결과를 보였다.