본 논문은 테스트 시간 확장을 통해 추론 성능을 향상시키는 대규모 추론 모델(LRM)의 능력에 대해 연구합니다. 테스트 시간 연산을 더욱 확장하여 추론 능력을 높이는 방향을 제시하며, 이러한 확장의 실질적인 한계를 체계적으로 이해하고 최적의 자원 할당을 달성하는 것을 중요한 과제로 제시합니다. 논문에서는 테스트 시간 확장의 Pareto 효율성을 조사하고, 테스트 시간 확장 성능 모델(TTSPM)을 도입합니다. 확장된 확장을 위한 두 가지 기본 패러다임인 병렬 확장과 순차적 확장을 확률적 모델링 관점에서 이론적으로 분석하여, 두 전략 모두에 대한 확장 예산의 포화점을 도출하고 추가 연산이 감소하는 수익을 가져오는 임계값을 확인합니다. 흥미롭게도, 서로 다른 메커니즘에도 불구하고 두 패러다임 모두 상한선에서 통합된 수학적 구조로 수렴합니다. AIME, MATH-500, GPQA와 같은 어려운 추론 벤치마크에서 이론적 발견을 실험적으로 검증하여 테스트 시간 자원 할당에 대한 이러한 경계의 실용성을 보여줍니다. 본 연구는 테스트 시간 확장의 비용-편익 분석에 대한 통찰력을 제공하여 대규모 추론 모델에 대한 보다 자원 효율적인 추론 전략 개발을 위한 지침을 제공합니다.