본 논문은 LLM의 추론 시간 연산을 통해 복잡한 추론 문제를 해결하는 추론 스케일링 기법을 다룬다. 특히, 여러 후보 솔루션을 생성하고 집계하는 best-of-N (BoN) sampling, majority voting, minimum Bayes risk decoding (MBRD)와 같은 추론 시간 기법을 개선하는 새로운 방법을 제시한다. 이 방법은 KL-controlled 강화 학습의 최적 정책 개념을 기반으로 하여, reward 및 risk/similarity 신호를 MBRD에 통합하는 프레임워크를 제공한다. 이 프레임워크는 기존 추론 시간 기법에 비해 높은 견고성, 향상된 정확도, 잘 이해된 점근적 동작을 제공하며, 문제의 난이도에 따라 생성할 샘플 수를 조정하는 샘플 효율적인 MBRD 변형을 개발할 수 있게 한다. MATH-$500$ 및 HumanEval task에서 open-source 모델을 사용하여 제안된 방법의 장점을 입증하고, 정확도-계산량 간의 trade-off를 분석한다.