본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위한 테스트 시점 스케일링(TTS)에서 존재하는 추론 전략 선택 편향 문제를 다룬다. 기존 TTS는 다양한 추론 경로를 샘플링하고 집계하여 성능을 향상시키지만, LLM이 특정 추론 전략(예: 수학 문제의 대수적 해법)을 선호하고 다른 유효한 대안(예: 기하학적 해법)을 간과함으로써 해결 공간 탐색이 부족하다는 문제점을 지적한다. 이를 해결하기 위해, 본 논문은 이러한 선택 편향이 TTS의 효과를 저해하는 시점을 밝히는 이론적 분석을 제시하고, 추론 전략의 선택 편향을 완화하기 위한 TTS-Uniform 프레임워크를 제안한다. TTS-Uniform은 (i) 잠재적 전략을 식별하고, (ii) 샘플링 예산을 균등하게 할당하며, (iii) 집계 전에 불안정한 전략을 필터링한다. 실험 결과, TTS-Uniform은 여러 주요 LLM과 벤치마크 데이터셋에서 스케일링 효과를 크게 향상시킨다.