본 논문은 대규모 언어 모델(LLM)의 추론 성능 향상을 위한 추론 시 확장(inference-time scaling) 기법에 대해 다룬다. 기존의 추론 시 확장 방법들은 휴리스틱 전략에 의존하는 경우가 많아 이론적 기반이 부족하다는 문제점을 지적하며, 병렬 샘플이 독립적이고 동일하게 분포한다는 가정 하에 최적의 추론 시 확장을 공식화하는 확률적 프레임워크를 제안한다. 이 프레임워크 내에서 목표 성능 수준을 달성하기 위한 필요한 샘플 수의 이론적 하한선을 도출하고, 이를 바탕으로 최적의 샘플 수를 동적으로 결정하는 실용적인 알고리즘인 OptScale을 개발하였다. OptScale은 언어 모델 기반 예측기를 사용하여 확률적 사전 매개변수를 추정하고, 미리 정의된 성능 임계값과 신뢰 수준을 만족하는 데 필요한 최소 샘플 수를 결정한다. 수학적 추론 벤치마크(MATH-500, GSM8K, AIME, AMC 포함)에 대한 광범위한 실험을 통해 OptScale이 샘플링 오버헤드를 크게 줄이면서 최첨단 추론 성능과 동등하거나 더 나은 성능을 유지함을 보여준다. 결론적으로 본 논문은 복잡한 추론을 위한 LLM의 효율적인 배포에 있어 중요한 격차를 해소하는 이론적 기반과 실용적인 해결책을 모두 제공한다.