본 논문은 사전 훈련된 정책의 응답을 개선하기 위한 추론 시간 정렬 문제를 공식화하고, 불완전한 보상 모델에 접근할 수 있는 경우를 분석합니다. 추론 시간 컴퓨팅을 최대한 활용하는 방법에 대한 이론적 이해를 목표로, Best-of-$N$ 샘플링과 같은 기법을 통해 컴퓨팅을 단순히 확장하면 보상 해킹으로 인해 성능이 저하될 수 있다는 점을 지적합니다. 이 논문은 응답 품질과 컴퓨팅 자원 측면에서 추론 시간 정렬 알고리즘의 성능을 분석하고, 고품질 응답에 대한 사전 훈련된 정책의 적용 범위가 성능과 컴퓨팅 확장에 중요하다는 새로운 결과를 제시합니다. Best-of-$N$ 정렬이 특정 조건 하에서는 최적 성능을 달성하지만, $N$이 클 경우 보상 해킹으로 고통받고 현실적인 적용 범위 조건 하에서는 엄격한 보장을 제공하지 못함을 보여줍니다. 또한, 보상 해킹을 완화하기 위한 새로운 알고리즘인 $\texttt{InferenceTimePessimism}$을 제시하고, 이 알고리즘의 성능이 최적이며 $N$과 함께 저하되지 않음을 증명합니다. 실험적 평가를 통해 다양한 작업과 모델에서 $\texttt{InferenceTimePessimism}$의 이점을 보여줍니다.