Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment

Created by
  • Haebom

저자

Audrey Huang, Adam Block, Qinghua Liu, Nan Jiang, Akshay Krishnamurthy, Dylan J. Foster

개요

본 논문은 사전 훈련된 언어 모델의 성능을 향상시키기 위한 추론 시간 정렬(inference-time alignment) 문제를 다룹니다. Best-of-N 샘플링과 같은 기법에서 추론 시간 계산을 단순히 늘리는 것은 보상 해킹(reward hacking)으로 인해 성능 저하를 초래할 수 있습니다. 이에 따라, 주어진 프롬프트와 불완전한 보상 모델에 접근하여 사전 훈련된 정책에서 추출된 응답의 질을 향상시키는 문제로 추론 시간 정렬을 공식화합니다. 이 논문에서는 (i) 응답 품질 및 (ii) 계산량 측면에서 추론 시간 정렬 알고리즘의 성능을 분석하고, 고품질 응답에 대한 사전 훈련된 정책의 적용 범위(coverage)가 성능 및 계산량 확장에 중요하다는 새로운 결과를 제시합니다. Best-of-N 정렬은 이상적인 N 값을 선택하면 엄격한 적용 범위 조건 하에서 최적의 성능을 달성할 수 있지만, N이 클 경우 보상 해킹으로 인해 성능이 저하되고, 보다 현실적인 적용 범위 조건에서는 엄격한 보장을 달성하지 못함을 보입니다. 또한, 거부 샘플링을 통해 불확실성에 대한 비관주의 원칙을 구현하여 보상 해킹을 완화하는 새로운 알고리즘인 InferenceTimePessimism을 제시하고, 그 성능이 최적이며 N에 따라 저하되지 않음(확장-단조적임)을 증명합니다. 이론적 결과를 다양한 작업과 모델에 대한 실험적 평가로 보완합니다.

시사점, 한계점

시사점:
추론 시간 계산을 효과적으로 활용하여 언어 모델 성능을 향상시키는 새로운 방법인 InferenceTimePessimism 알고리즘을 제시.
InferenceTimePessimism은 보상 해킹 문제를 완화하고 계산량 증가에 따라 성능이 저하되지 않음을 이론적, 실험적으로 증명.
사전 훈련된 정책의 고품질 응답 적용 범위가 성능 및 계산량 확장에 중요함을 밝힘.
한계점:
InferenceTimePessimism 알고리즘의 실험적 평가가 다양한 작업과 모델을 포함하지만, 더욱 광범위한 실험이 필요할 수 있음.
불완전한 보상 모델에 대한 의존성이 존재하며, 보상 모델의 질에 따라 알고리즘 성능이 영향을 받을 수 있음.
이론적 분석은 특정 조건(엄격한 적용 범위 조건 등) 하에서 이루어졌으며, 보다 일반적인 상황에 대한 분석이 필요할 수 있음.
👍