본 논문은 다양한 선호도에 맞춰 텍스트-이미지(T2I) 확산 모델을 정렬하는 문제를 해결하기 위해 BalancedDPO를 제시합니다. 기존 방법들은 단일 지표를 최적화하거나 좁게 큐레이션된 데이터셋에 의존하여 과적합 및 주요 시각적 품질 지표에 대한 일반화 제한이 발생하는 문제점을 가지고 있습니다. BalancedDPO는 직접 선호도 최적화(DPO)를 확장하여 사람의 선호도, CLIP 점수, 미적 품질 등 여러 지표를 동시에 정렬합니다. 기존 보상 혼합 방식과 달리, 선호도 분포 공간에서 다양한 지표의 합의 레이블을 집계하는 것이 핵심적인 새로운 아이디어입니다. Pick-a-Pic, PartiPrompt, HPD 데이터셋에서 평가한 결과, BalancedDPO는 기존 방법들을 능가하는 최첨단 결과를 달성했습니다. DiffusionDPO 대비 Pick-a-Pic, PartiPrompt, HPD에서 평균 승률을 각각 15%, 7.1%, 10.3% 향상시켰습니다.