본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 추론 시간 계산(ITC) 방법의 효과를 분석합니다. 특히, 보상 모델이 필요 없는 검증자 없는 ITC 방법에 초점을 맞춰, 추론 모델과 비추론 모델에서 다양한 ITC 방법(다수결 투표, best-of-N, 순차적 수정 등)의 성능을 비교 분석합니다. 추론 모델과 비추론 모델의 성능 및 효율성을 Pareto frontier로 나타내고, 다수결 투표가 다른 정교한 ITC 방법들보다 경쟁력이 있거나 우수함을 보입니다. 또한, 응답 길이, 언어적 지표(hedging, thinking, discourse marker)와 응답 정확도의 상관관계를 분석하여 ITC 방법 개선에 대한 통찰을 제공합니다.