Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

Created by

Haebom

저자

Ved Sriraman, Adam Block

💡 개요

본 논문은 언어 모델의 추론 시 정렬(inference-time alignment)에 널리 사용되는 Best-of-N (BoN) 샘플링 기법의 통계적 최적성에 대해 재고한다. 기존 이론 연구와 달리 실제 적용 사례를 더 잘 반영하는 가정 하에서, BoN이 승률(win-rate) 측면에서 최적임을 입증하며 실용적 성공의 이유를 설명한다. 또한, 보상 해킹(reward hacking)을 제거하면서도 통계적 성능을 유지하는 BoN의 개선된 변형을 제안한다.

🔑 시사점 및 한계

•

BoN 샘플링은 실제 환경에서 승률을 극대화하는 데 있어 계산적으로나 통계적으로 최적일 수 있다.

•

기존 연구에서 제안된 접근 방식은 승률을 고려할 때 통계적으로 차선책임이 입증되었다.

•

제안된 BoN 변형은 보상 해킹 문제를 해결하면서도 최적의 승률 성능을 유지한다.

•

보상 모델의 정확성과 참조 모델의 품질이 BoN의 성능에 중요한 영향을 미친다.

PDF 보기

Made with Slashpage