본 논문은 대규모 언어 모델(LLM)의 테스트 시간 계산 확장에 초점을 맞추고 있습니다. 특히, 다양한 추론 프롬프팅 전략의 확장성을 체계적으로 연구하며, 표준적인 확장 설정인 다수결 투표 방식을 사용하여 6개의 LLM, 8개의 프롬프팅 전략, 6개의 벤치마크에 대한 실험을 수행했습니다. 실험 결과, 샘플링 시간 및 계산 오버헤드가 증가함에 따라 초기 성능이 우수한 복잡한 프롬프팅 전략이 단순한 Chain-of-Thought 전략보다 성능이 저하되는 현상을 보였습니다. 이 현상에 대한 이론적 증명을 제공하고, 확률 이론에 기반한 방법을 제안하여 추가적인 자원 집약적인 추론 없이 큰 샘플링 시간에서 최적의 전략을 빠르고 정확하게 예측하는 방법을 제시합니다. 이는 다수결 투표에 대한 테스트 시간 확장 법칙으로 활용될 수 있습니다. 또한, 이론적 분석에서 도출된 두 가지 방법을 통해 확장 성능을 크게 향상시키는 방안을 제시합니다.