Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Majority of the Bests: Improving Best-of-N via Bootstrapping

Created by
  • Haebom
Category
Empty

저자

Amin Rakhsha, Kanika Madan, Tianyu Zhang, Amir-massoud Farahmand, Amir Khasahmadi

개요

대규모 언어 모델(LLM)에서 여러 출력을 샘플링하고 가장 빈번한(자기 일관성) 또는 가장 높은 점수를 받은(Best-of-N) 후보를 선택하는 것은 이산적인 최종 답변이 있는 작업에서 더 높은 정확도를 달성하기 위한 인기 있는 접근 방식입니다. Best-of-N(BoN)은 가장 높은 보상을 받는 출력을 선택하며, 완벽한 보상으로 거의 완벽한 정확도를 달성하는 경우가 많습니다. 그러나 보상 모델에서 얻은 불완전한 보상으로는 BoN이 올바른 답변을 안정적으로 찾지 못하고 성능이 급격히 저하됩니다. 우리는 BoN의 출력 분포를 고려하고, 불완전한 보상 하에서 정답이 일반적으로 1에 가까운 확률을 갖지 않더라도, 종종 가장 가능성이 높은 결과라는 점을 강조합니다. 이러한 아이디어를 바탕으로, 부트스트래핑을 통해 BoN의 출력 분포를 추정하고 그 모드를 선택하는 새로운 선택 메커니즘인 Majority-of-the-Bests(MoB)를 제안합니다. 다섯 개의 벤치마크, 세 개의 다른 기본 LLM, 두 개의 보상 모델에 대한 실험 결과는 30개의 설정 중 25개에서 BoN보다 일관된 개선을 보여줍니다. 우리는 또한 부트스트래핑의 일관성에 대한 이론적 결과를 제공합니다. MoB는 BoN 및 자기 일관성에 대한 간단하면서도 강력한 대안으로 작용하며, 더 나아가 더 미묘한 선택 메커니즘에 대한 추가 연구를 동기를 부여합니다.

시사점, 한계점

시사점:
BoN의 출력 분포 모드를 선택하는 MoB라는 새로운 선택 메커니즘 제안.
다양한 설정에서 BoN보다 일관된 성능 향상 입증.
자기 일관성 및 BoN에 대한 강력한 대안 제시.
보다 정교한 선택 메커니즘 연구를 위한 동기 부여.
한계점:
구체적인 한계점은 논문 내용에서 명시적으로 언급되지 않음.
MoB의 성능이 모든 상황에서 최적일지에 대한 추가 연구 필요.
다른 선택 메커니즘과의 비교 분석 및 최적화 가능성 탐색 필요.
👍