본 논문은 대규모 언어 모델(LLM)의 추론 성능 향상을 위한 추론 시간 스케일링 기법에 대한 연구를 제시합니다. 기존의 휴리스틱한 접근 방식의 한계를 보완하기 위해, 독립적이고 동일하게 분포된(i.i.d.) 병렬 샘플링을 가정하고, Best-of-N 선택 전략의 확률 분포를 추정하는 확률적 프레임워크를 제안합니다. 이 프레임워크를 통해, 목표 성능 수준을 달성하기 위한 샘플 수를 이론적으로 하한선으로 제시하고, 계산 효율적인 스케일링을 위한 원칙적인 지침을 제공합니다. 실용적인 알고리즘인 \textsc{OptScale}을 개발하여, 동적으로 최적의 샘플링 응답 수를 결정합니다. \textsc{OptScale}은 언어 모델 기반 예측기를 사용하여 확률적 사전 매개변수를 추정하여, 사전 정의된 성능 임계값 및 신뢰 수준을 충족하는 최소 샘플 수를 결정합니다. 다양한 추론 벤치마크 실험을 통해, \textsc{OptScale}이 샘플링 오버헤드를 크게 줄이면서도 최첨단 성능을 유지함을 입증합니다.