Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier

Created by
  • Haebom

저자

Anirudhan Badrinath, Prabhat Agarwal, Jiajing Xu

개요

본 논문은 대규모 언어 모델(LLM) 정렬을 위해 기존의 강화 학습을 통한 인간 피드백(RLHF) 또는 직접적 선호도 최적화(DPO)의 변형을 활용한 연구들을 검토한다. DPO는 최대 가능도 추정에 기반한 간단한 프레임워크를 제공하지만, LLM 설계자의 선호도에 따라 보조적이고 비선호적인 목표(예: 어휘 스타일 조정 또는 특정 유형의 유해 콘텐츠 최소화)를 극대화하도록 언어 모델을 쉽게 조정하는 기능을 저해한다. 설계자의 목표는 인간에 의해 충분히 라벨링 되거나 사용 가능한 데이터에 표현되지 않거나 사용자 선호도와 일치하지 않거나 이진 선호도 쌍으로 추적 가능하게 캡처될 수 없을 수 있다는 중요한 문제점이 있다. 본 논문에서는 DPO의 단순성과 성능과 RL의 일반성을 결합한 통합된 접근 방식을 제안한다. 선호도와 보조 목표의 간단한 분해를 기반으로 추가적인 특수 데이터나 선호도 데이터, 계산 비용, 안정성 조정 또는 훈련 불안정성 없이 사용자 및 설계자 선호도를 최적화하도록 LLM을 조정할 수 있다. 제안된 방법인 통합 선호도 최적화(Unified Preference Optimization)는 다양한 모델 크기에 걸쳐 어려운 벤치마크에서 정렬 성능을 유지하거나 능가하면서 사용자 선호도와 보조 목표에 효과적으로 일반화할 수 있음을 보여준다.

시사점, 한계점

시사점: DPO의 단순성과 RL의 일반성을 결합하여 LLM 정렬 문제를 효과적으로 해결하는 새로운 방법 제시. 추가 데이터나 계산 비용 없이 사용자 및 설계자 선호도 모두 충족 가능. 다양한 모델 크기에서 우수한 성능 입증.
한계점: 제안된 방법의 일반화 능력에 대한 더욱 폭넓은 실험 및 분석 필요. 다양한 유형의 보조 목표 및 사용자 선호도에 대한 적용성 검증 필요. 실제 사용 환경에서의 성능 및 안정성에 대한 추가적인 연구 필요.
👍