Best-of-Tails: Bridging Optimism and Pessimism in Inference-Time Alignment

Created by

Haebom

저자

Hsiang Hsu, Eric Lei, Chun-Fu Chen

💡 개요

본 연구는 대규모 언어 모델(LLM)의 추론 시점 정렬에서 발생하는 낙관적(reward hacking 발생 가능) 및 비관적(탐색 부족) 전략의 근본적인 딜레마를 해결하고자 합니다. 이를 위해 보상 분포의 꼬리 특성에 따라 최적 전략이 달라짐을 이론적으로 규명하고, Tsallis 발산을 조절 가능한 정규화 항으로 사용하는 적응형 프레임워크인 Best-of-Tails (BoT)를 제안합니다. BoT는 프롬프트별로 보상 꼬리 분포의 무거움을 동적으로 평가하고 탐색과 정렬 오류 간의 균형을 조절하여 성능을 향상시킵니다.

🔑 시사점 및 한계

•

정규화 항의 꼬리 분포 의존성을 통해 낙관적 및 비관적 추론 시점 정렬 전략의 균형을 동적으로 맞출 수 있습니다.

•

Tsallis 발산과 Hill 추정기를 활용하여 프롬프트별로 보상 모델의 신뢰도를 평가하고, 탐색 범위를 조절함으로써 LLM의 추론 성능을 향상시킬 수 있습니다.

•

제안된 BoT 프레임워크는 수학, 객관식 추론, 인간 선호도 평가 등 다양한 태스크에서 기존의 고정 전략 기반 방법론보다 뛰어난 성능을 보였습니다.

•

보상 모델의 정확성과 꼬리 분포 추정의 안정성이 BoT 프레임워크의 성능에 중요한 영향을 미칠 수 있습니다. 향후 보상 모델의 불확실성을 더 효과적으로 다루는 방안에 대한 연구가 필요합니다.

PDF 보기

Made with Slashpage