Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier

Created by
  • Haebom

저자

Anirudhan Badrinath, Prabhat Agarwal, Jiajing Xu

개요

본 논문은 대규모 언어 모델(LLM) 정렬을 위해 기존의 강화 학습 기반 인간 피드백(RLHF) 또는 직접 선호도 최적화(DPO) 방식의 변형을 넘어서는 통합 접근 방식을 제안합니다. DPO는 간편한 최대 가능도 추정에 기반하지만, LLM 설계자의 선호도에 따라 보조적인 비선호 목표(예: 어휘 스타일 조정 또는 특정 유형의 유해 콘텐츠 최소화)를 극대화하도록 언어 모델을 쉽게 조정하는 기능을 저해합니다. 이러한 설계자 목표는 충분한 인간 레이블이 없거나, 사용 가능한 데이터에 나타나지 않거나, 사용자 선호도와 일치하지 않거나, 이진 선호도 쌍으로 추적 가능하게 캡처할 수 없을 수 있습니다. 본 논문에서 제안하는 통합 선호도 최적화(Unified Preference Optimization)는 선호도와 보조 목표의 간단한 분해를 기반으로 추가적인 특수 데이터나 선호도 데이터, 계산 비용, 안정성 조정 또는 훈련 불안정성 없이 사용자와 설계자 선호도를 최적화하도록 LLM을 조정할 수 있도록 합니다. 이 방법은 다양한 모델 크기에 걸쳐 어려운 벤치마크에서 정렬 성능을 유지하거나 능가하면서 사용자 선호도와 보조 목표에 효과적으로 일반화할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
RLHF의 복잡성 없이 DPO의 장점과 RL의 일반성을 결합한 통합 접근 방식을 제시합니다.
추가 데이터나 계산 비용 없이 사용자와 설계자 선호도 모두를 최적화할 수 있습니다.
다양한 모델 크기에서 벤치마크 성능을 유지하거나 개선합니다.
사용자 선호도 및 보조 목표에 대한 일반화 능력을 향상시킵니다.
한계점:
제안된 방법의 실제 적용 및 확장성에 대한 추가적인 연구가 필요합니다.
다양한 유형의 LLM과 보조 목표에 대한 일반화 성능에 대한 더 폭넓은 평가가 필요합니다.
선호도와 보조 목표의 분해가 항상 명확하지 않을 수 있는 경우에 대한 고려가 필요합니다.
👍