Direct Preference Optimization (DPO)는 학습된 보상 모델 없이 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 간단하고 효과적인 접근 방식입니다. 이 연구에서는 DPO 성능에 가장 중요한 선호도 데이터 특성을 체계적으로 연구합니다. 선택된 응답의 품질이 DPO 목적 함수 최적화에 중요한 역할을 하며, 거부된 응답의 품질은 상대적으로 제한적인 영향을 미칠 수 있음을 보여줍니다. 선택된 응답에 대한 온라인 DPO 설정은 지도 학습과 유사하게 작동하며, 다양한 작업에서 실험을 통해 선택된 응답의 품질을 개선하는 것이 일관적으로 성능을 향상시키는 것을 확인합니다.