Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization

Created by
  • Haebom

저자

Hee Suk Yoon, Eunseop Yoon, Mark Hasegawa-Johnson, Sungwoong Kim, Chang D. Yoo

개요

ConfPO는 대규모 언어 모델(LLM)의 선호도 학습을 위한 새로운 방법으로, 보조 모델이나 추가적인 연산 없이, 오직 훈련 정책의 신뢰도만을 기반으로 선호도에 중요한 토큰을 식별하고 최적화합니다. 기존의 직접 정렬 알고리즘(DAA)인 직접 선호도 최적화(DPO)와 달리, 모든 토큰 확률을 선호도와의 관련성에 관계없이 균일하게 조정하는 대신, ConfPO는 가장 영향력 있는 토큰에 최적화를 집중합니다. 이러한 표적화된 접근 방식은 KL 발산 예산을 보다 효율적으로 사용함으로써 정렬 품질을 향상시키는 동시에 과최적화(즉, 보상 해킹)를 완화합니다. 크레딧 할당 모델이나 AI 주석가에 의존하는 최근의 토큰 수준 방법과 달리 확장성과 신뢰성에 대한 우려를 제기하지 않고, ConfPO는 단순하고 경량이며 모델이 필요 없습니다. AlpacaEval 2 및 Arena-Hard를 포함한 어려운 정렬 벤치마크에 대한 실험 결과는 ConfPO가 다양한 LLM에서 균일한 DAA를 일관되게 능가하고 추가적인 계산 오버헤드 없이 더 나은 정렬을 제공함을 보여줍니다.

시사점, 한계점

시사점:
보조 모델이나 추가 연산 없이 LLM의 선호도 학습을 효율적으로 수행할 수 있는 새로운 방법 제시.
기존 DAA보다 향상된 정렬 품질과 과최적화 완화 효과를 보임.
단순하고 경량하며 모델이 필요 없어 확장성과 신뢰성이 높음.
다양한 LLM과 벤치마크에서 일관된 성능 향상을 보임.
한계점:
ConfPO의 성능 향상이 특정 벤치마크와 LLM에 국한될 가능성.
신뢰도 기반의 토큰 식별이 항상 최적의 결과를 보장하지 못할 수 있음.
다양한 선호도 학습 시나리오에 대한 일반화 성능에 대한 추가 연구 필요.
👍