본 논문은 대규모 언어 모델(LLM) 정렬을 위해 기존의 강화 학습 기반 인간 피드백(RLHF) 또는 직접 선호도 최적화(DPO) 방식의 변형을 넘어서는 통합 접근 방식을 제안합니다. DPO는 간편한 최대 가능도 추정에 기반하지만, LLM 설계자의 선호도에 따라 보조적인 비선호 목표(예: 어휘 스타일 조정 또는 특정 유형의 유해 콘텐츠 최소화)를 극대화하도록 언어 모델을 쉽게 조정하는 기능을 저해합니다. 이러한 설계자 목표는 충분한 인간 레이블이 없거나, 사용 가능한 데이터에 나타나지 않거나, 사용자 선호도와 일치하지 않거나, 이진 선호도 쌍으로 추적 가능하게 캡처할 수 없을 수 있습니다. 본 논문에서 제안하는 통합 선호도 최적화(Unified Preference Optimization)는 선호도와 보조 목표의 간단한 분해를 기반으로 추가적인 특수 데이터나 선호도 데이터, 계산 비용, 안정성 조정 또는 훈련 불안정성 없이 사용자와 설계자 선호도를 최적화하도록 LLM을 조정할 수 있도록 합니다. 이 방법은 다양한 모델 크기에 걸쳐 어려운 벤치마크에서 정렬 성능을 유지하거나 능가하면서 사용자 선호도와 보조 목표에 효과적으로 일반화할 수 있음을 보여줍니다.