본 논문은 사전 훈련된 언어 모델의 성능을 향상시키기 위한 추론 시간 정렬(inference-time alignment) 문제를 다룹니다. Best-of-N 샘플링과 같은 기법에서 추론 시간 계산을 단순히 늘리는 것은 보상 해킹(reward hacking)으로 인해 성능 저하를 초래할 수 있습니다. 이에 따라, 주어진 프롬프트와 불완전한 보상 모델에 접근하여 사전 훈련된 정책에서 추출된 응답의 질을 향상시키는 문제로 추론 시간 정렬을 공식화합니다. 이 논문에서는 (i) 응답 품질 및 (ii) 계산량 측면에서 추론 시간 정렬 알고리즘의 성능을 분석하고, 고품질 응답에 대한 사전 훈련된 정책의 적용 범위(coverage)가 성능 및 계산량 확장에 중요하다는 새로운 결과를 제시합니다. Best-of-N 정렬은 이상적인 N 값을 선택하면 엄격한 적용 범위 조건 하에서 최적의 성능을 달성할 수 있지만, N이 클 경우 보상 해킹으로 인해 성능이 저하되고, 보다 현실적인 적용 범위 조건에서는 엄격한 보장을 달성하지 못함을 보입니다. 또한, 거부 샘플링을 통해 불확실성에 대한 비관주의 원칙을 구현하여 보상 해킹을 완화하는 새로운 알고리즘인 InferenceTimePessimism을 제시하고, 그 성능이 최적이며 N에 따라 저하되지 않음(확장-단조적임)을 증명합니다. 이론적 결과를 다양한 작업과 모델에 대한 실험적 평가로 보완합니다.