본 논문은 대규모 언어 모델(LLM)의 추론 성능 향상을 위한 추론 시간 확장(Inference-time scaling) 기법에 대한 새로운 확률적 프레임워크를 제시합니다. 기존의 휴리스틱 기반 병렬 샘플링 방식의 한계를 극복하고, 병렬 샘플이 독립적이고 동일하게 분포한다는 가정하에 최적의 추론 시간 확장을 위한 이론적 토대를 마련합니다. Best-of-N 선택 전략의 확률 분포를 추정하여 목표 성능 수준 달성에 필요한 최소 샘플 수에 대한 이론적 하한선을 도출하고, 이를 바탕으로 최적의 샘플 수를 동적으로 결정하는 OptScale 알고리즘을 개발했습니다. OptScale은 언어 모델 기반 예측기를 사용하여 확률적 사전 매개변수를 추정하고, 미리 정의된 성능 임계값과 신뢰 수준을 만족하는 최소 샘플 수를 결정합니다. MATH-500, GSM8K, AIME, AMC 등 수학적 추론 벤치마크에 대한 광범위한 실험을 통해 OptScale이 샘플링 오버헤드를 크게 줄이면서 최첨단 추론 성능과 동등하거나 더 나은 성능을 유지함을 보여줍니다. 본 논문은 이론적 기반과 실용적인 해결책을 모두 제공하여 복잡한 추론을 위한 LLM의 효율적인 배포에 중요한 기여를 합니다. 소스 코드는 공개적으로 제공됩니다.