본 논문은 대규모 언어 모델(LLM) 정렬을 위해 기존의 강화 학습을 통한 인간 피드백(RLHF) 또는 직접적 선호도 최적화(DPO)의 변형을 활용한 연구들을 검토한다. DPO는 최대 가능도 추정에 기반한 간단한 프레임워크를 제공하지만, LLM 설계자의 선호도에 따라 보조적이고 비선호적인 목표(예: 어휘 스타일 조정 또는 특정 유형의 유해 콘텐츠 최소화)를 극대화하도록 언어 모델을 쉽게 조정하는 기능을 저해한다. 설계자의 목표는 인간에 의해 충분히 라벨링 되거나 사용 가능한 데이터에 표현되지 않거나 사용자 선호도와 일치하지 않거나 이진 선호도 쌍으로 추적 가능하게 캡처될 수 없을 수 있다는 중요한 문제점이 있다. 본 논문에서는 DPO의 단순성과 성능과 RL의 일반성을 결합한 통합된 접근 방식을 제안한다. 선호도와 보조 목표의 간단한 분해를 기반으로 추가적인 특수 데이터나 선호도 데이터, 계산 비용, 안정성 조정 또는 훈련 불안정성 없이 사용자 및 설계자 선호도를 최적화하도록 LLM을 조정할 수 있다. 제안된 방법인 통합 선호도 최적화(Unified Preference Optimization)는 다양한 모델 크기에 걸쳐 어려운 벤치마크에서 정렬 성능을 유지하거나 능가하면서 사용자 선호도와 보조 목표에 효과적으로 일반화할 수 있음을 보여준다.