本文提出了集体测试时间扩展 (CTTS) 来克服测试时间扩展 (TTS) 的局限性,TTS 是一种无需训练即可提升大规模语言模型 (LLM) 性能的方法。CTTS 旨在通过与多个智能体和多个奖励模型协作来提升性能,超越传统的单一测试时间扩展 (STTS) 范式。为此,我们系统地研究了三种交互范式——SA-MR、MA-SR 和 MA-MR,并论证了 MA-MR 范式的优越性。之后,我们提出了一个全新的框架 CTTS-MM,该框架通过用于智能体协作的智能体协作搜索 (ACS) 和用于奖励模型协作的混合奖励模型 (MoR) 来最大化 LLM 的性能。CTTS-MM 在各种基准测试中均优于现有的 STTS 方法和最先进的 LLM(例如 GPT-4.1)。