본 논문은 직접적 선호도 최적화(DPO)에 대한 두 가지 반직관적인 관찰 결과를 제시합니다. 첫째, DPO 손실 함수가 전체 분포가 아닌 표본 내 응답에 대한 KL 제약만을 정의하는 대안적인 최적화 문제로부터 유도될 수 있음을 보입니다. 둘째, 이 대안적인 최적화 문제의 최적 정책 하에서는 선호되는 응답과 기각되는 응답 모두의 확률이 감소하는 놀라운 현상을 증명합니다. 이러한 현상을 제어하기 위해, 본 논문은 기준 정책과 목표 정책 간의 확률 질량 이동을 제한하는 제약 조건을 제안합니다. 제약된 제어 DPO(C2-DPO)라 불리는 결과 알고리즘은 의미있는 RLHF 해석을 제공하며, 확률 질량 이동에 대한 헤징을 통해 표준 선호도 데이터셋을 사용하여 여러 언어 모델을 정렬할 때 기존 DPO보다 실질적인 개선을 제공합니다.
시사점, 한계점
•
시사점: DPO의 동작에 대한 새로운 이해를 제공하고, 이를 바탕으로 개선된 알고리즘인 C2-DPO를 제안합니다. C2-DPO는 기존 DPO보다 실제 성능이 향상됨을 보였습니다. DPO의 기저에 깔린 대안적인 최적화 문제를 제시함으로써, DPO의 이론적 토대를 강화합니다.
•
한계점: 제안된 C2-DPO 알고리즘의 성능 향상이 특정 데이터셋과 언어 모델에 국한될 가능성이 있습니다. 더욱 다양한 실험 설정과 데이터셋을 통해 일반화 성능을 검증할 필요가 있습니다. 제약 조건의 최적 설정에 대한 추가 연구가 필요합니다.