Direct Preference Optimization (DPO)는 대규모 언어 모델(LLM) 정렬을 위해 인간 선호도로부터 학습하는 중요한 방법론으로 부상했다. 본 연구는 DPO 훈련의 효과에 미치는 \emph{선호도 분산} (PVar)의 영향을 조사한다. DPO 기울기 크기에 대한 상한을 설정하여 PVar가 이를 제어한다는 이론적 통찰력을 제공하며, PVar가 낮은 프롬프트는 학습에 덜 가치 있음을 시사한다. 실험 결과는 PVar가 높은 프롬프트가 무작위 선택 또는 PVar가 낮은 프롬프트보다 성능이 우수함을 보여준다. 또한 PVar 기반 선택 방법이 소규모 보상 모델에서도 견고하며, UltraFeedback 데이터셋의 인간 주석을 사용한 별도 실험에서 PVar 상위 10% 프롬프트만으로 훈련해도 전체 데이터셋으로 훈련하는 것보다 더 나은 평가 성능을 얻었다.