본 논문은 인간 선호도에 언어 모델을 정렬하는 데 효과적인 알고리즘인 Best-of-N (BoN)의 계산 비용 문제를 해결하기 위해, BoN 알고리즘이 유도하는 분포를 도출하고 이를 근사하는 변분 추론 기반 방법인 Variational BoN (vBoN)을 제안합니다. vBoN은 BoN의 추론 과정을 모방하도록 언어 모델을 미세 조정하여 BoN과 유사한 성능을 훨씬 더 효율적으로 달성합니다. 제어된 생성 및 요약 작업에 대한 실험 결과, BoN이 가장 효과적인 정렬 방법이며, vBoN이 BoN에 가장 근접한 성능을 달성하고 표준 KL 제약 RL 목표를 사용하여 미세 조정된 모델을 능가함을 보여줍니다. 특히 제어된 생성 작업에서는 vBoN이 다른 정렬 방법보다 보상과 KL 발산의 파레토 프런티어에 더 자주 나타나며, 요약 작업에서는 다양한 샘플링 온도에서 높은 보상 값을 달성합니다.