본 논문은 Best-of-N (BoN) 알고리즘의 계산 비용 문제를 해결하기 위해, BoN 알고리즘이 유도하는 분포를 도출하고, 이를 근사하는 변분 베이즈 방법을 제안합니다. 제안된 방법인 variational BoN (vBoN)은 언어 모델을 BoN 분포에 대한 역방향 KL 발산을 최소화하도록 미세 조정하여, 추론 시간의 계산 비용을 N 배 감소시키는 것을 목표로 합니다. 제어된 생성 및 요약 작업에 대한 실험을 통해 BoN이 가장 효과적인 정렬 방법임을 보이고, vBoN이 BoN에 가장 근접한 성능을 달성하며, 표준 KL 제약 RL 목표를 사용하여 미세 조정된 모델을 능가함을 보여줍니다. 특히 제어된 생성 작업에서는 vBoN이 다른 정렬 방법보다 보상과 KL 발산의 Pareto frontier에 더 자주 나타나며, 요약 작업에서는 다양한 샘플링 온도에서 높은 보상 값을 달성합니다.