Direct Preference Optimization (DPO)의 성능에 가장 중요한 선호도 데이터의 특성을 체계적으로 연구합니다. 선택된 응답의 품질이 DPO 목표를 최적화하는 데 중요한 역할을 하며, 거부된 응답의 품질은 상대적으로 제한적인 영향을 미친다는 것을 이론적 및 경험적 관점에서 보여줍니다. 최적의 응답 분포를 특성화하고, 온라인 DPO 설정을 연구하며, 선택된 응답에 대한 지도 학습 미세 조정으로 효과적으로 축소됨을 보여줍니다. 다양한 작업에 걸쳐 광범위한 실험을 통해 선택된 응답의 품질 향상이 거부된 응답의 품질에 관계없이 일관되게 성능을 향상시킨다는 것을 확인했습니다. 또한, 정책 내 데이터 혼합의 이점을 조사합니다.