본 논문은 대규모 언어 모델을 인간의 선호도에 맞추는 유망한 방법인 직접 선호도 최적화(DPO)에서 데이터 선택이라는 중요하지만 간과된 측면을 개선하는 데 중점을 둡니다. 소음 데이터로 인한 매개변수 축소 문제를 해결하기 위해 DPO 훈련에서 새로운 마진 최대화 원리를 제안하고, 여러 보상 모델의 노이즈를 완화하기 위해 여러 마진 소스(외부 및 암시적)를 단일 선호도 확률로 통합하는 베이지안 집계 방법을 제안합니다. 다양한 설정에서의 광범위한 실험을 통해 접근 방식의 일관되게 높은 데이터 효율성을 보여줍니다. Ultrafeedback 데이터셋의 10%만 사용하여 AlpacaEval2 벤치마크에서 다양한 Llama, Mistral 및 Qwen 모델에 대해 3%~8%의 성능 향상을 달성했습니다. 또한, 반복적인 DPO로 확장하여 약 25%의 온라인 데이터로 약 3%의 성능 향상을 달성하여 고품질 데이터 생성 방식의 높은 중복성을 보여줍니다. 결과적으로 데이터 선택 전략이 선호도 최적화 발전에 잠재력이 있음을 강조합니다.