본 논문은 추론 과정에서 추가적인 컴퓨팅 자원을 할당하여 대규모 언어 모델(LLM)의 성능을 향상시키는 테스트 시간 스케일링 기법에 대해 연구한다. 특히, 샘플링 기반 스케일링 기술인 Best-of-N(BoN) 샘플링의 효율성 문제를 해결하고자 한다. BoN 샘플링의 주요 문제점인 과도한 GPU 메모리 사용량과 보상 모델의 필요성을 해결하기 위해, 본 논문은 모든 N개의 샘플을 완전 생성하지 않고 보상 모델 없이 작동하는 Self-Truncation Best-of-N (ST-BoN)을 제안한다. ST-BoN은 모델 내부 상태의 초기 일관성을 활용하여 가장 유망한 경로를 식별하고, 비효율적인 경로를 잘라낸다. ST-BoN은 기존 Full-BoN과 동일한 성능을 유지하면서 70-80%의 계산 비용을 절감하며, 동일한 비용으로 3-4점의 정확도 향상을 달성한다. 또한, 동적 GPU 메모리 사용량을 80% 이상, 추론 지연 시간을 50% 줄인다.