Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences

Created by
  • Haebom
Category
Empty

저자

Rhitabrat Pokharel, Yufei Tao, Ameeta Agrawal

개요

본 논문은 대규모 언어 모델(LLM)을 인간 선호도에 맞추기 위한 사후 훈련 기법인 선호도 최적화(Preference Optimization)를 연구하며, 특히 다국어 환경에서의 일반화 문제를 해결하고자 한다. 기존의 Direct Preference Optimization (DPO)의 한계를 극복하기 위해, 본 논문은 상대적 보상에 기반한 동적 손실 스케일링 메커니즘을 사용하는 Confidence-Aware Preference Optimization (CAPO)를 제안한다. CAPO는 각 선호도 쌍에 대한 신뢰도를 기반으로 학습 신호를 조절하여, 다국어 텍스트에서 흔히 발생하는 노이즈 또는 낮은 마진의 비교에 대한 강건성을 향상시킨다. 실험 결과, CAPO는 기존 선호도 최적화 기반 모델보다 최소 16% 높은 보상 정확도를 보였으며, 여러 언어에서 선호 응답과 비선호 응답 간의 격차를 넓혀 정렬을 개선했다.

시사점, 한계점

시사점:
CAPO는 DPO의 고정된 선호도 쌍 처리 방식을 개선하여 동적 손실 스케일링을 도입, 다국어 환경에서 강건성을 확보했다.
CAPO는 보상 정확도에서 기존 모델 대비 최소 16% 향상을 보였다.
CAPO는 여러 언어에서 선호/비선호 응답 간의 차이를 벌려 모델 정렬을 개선했다.
한계점:
논문에서 구체적인 한계점 언급은 없음.
👍