# Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment

### 저자

Audrey Huang, Adam Block, Qinghua Liu, Nan Jiang, Dylan J. Foster, Akshay Krishnamurthy

### 개요

본 논문은 사전 훈련된 정책의 응답을 개선하기 위한 추론 시간 정렬 문제를 공식화하고, 불완전한 보상 모델에 접근할 수 있는 경우를 분석합니다.  추론 시간 컴퓨팅을 최대한 활용하는 방법에 대한 이론적 이해를 목표로,  Best-of-$N$ 샘플링과 같은 기법을 통해 컴퓨팅을 단순히 확장하면 보상 해킹으로 인해 성능이 저하될 수 있다는 점을 지적합니다.  이 논문은 응답 품질과 컴퓨팅 자원 측면에서 추론 시간 정렬 알고리즘의 성능을 분석하고, 고품질 응답에 대한 사전 훈련된 정책의 적용 범위가 성능과 컴퓨팅 확장에 중요하다는 새로운 결과를 제시합니다. Best-of-$N$ 정렬이 특정 조건 하에서는 최적 성능을 달성하지만, $N$이 클 경우 보상 해킹으로 고통받고 현실적인 적용 범위 조건 하에서는 엄격한 보장을 제공하지 못함을 보여줍니다. 또한,  보상 해킹을 완화하기 위한 새로운 알고리즘인 $\texttt{InferenceTimePessimism}$을 제시하고, 이 알고리즘의 성능이 최적이며 $N$과 함께 저하되지 않음을 증명합니다.  실험적 평가를 통해 다양한 작업과 모델에서 $\texttt{InferenceTimePessimism}$의 이점을 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - 추론 시간 컴퓨팅을 효율적으로 활용하기 위한 이론적 기반을 제공합니다.

    - 보상 해킹 문제를 완화하는 새로운 알고리즘 $\texttt{InferenceTimePessimism}$을 제안합니다.

    - $\texttt{InferenceTimePessimism}$의 성능이 최적이고 확장 가능함을 증명합니다.

    - 실험을 통해 알고리즘의 효과를 검증합니다.

    - 사전 훈련된 정책의 적용 범위가 성능과 컴퓨팅 확장에 중요함을 강조합니다.

- **한계점:**

    - $\texttt{InferenceTimePessimism}$ 알고리즘의 성능은 이상적인 보상 모델을 가정할 때 최적입니다. 실제 보상 모델은 불완전할 수 있으므로, 실제 성능은 이론적 성능과 차이가 있을 수 있습니다.

    - 실험 결과는 특정 작업과 모델에 국한되어 일반화 가능성에 대한 추가 연구가 필요합니다.

    - Best-of-$N$ 정렬의 한계점을 엄격한 적용 범위 조건 하에서만 보여줍니다.  더 현실적인 조건에서의 분석이 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2503.21878)

![https://i.imgur.com/1wNoz8o.jpeg](https://i.imgur.com/1wNoz8o.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).