본 논문은 직접 선호도 최적화(DPO)의 로그 비율 보상 매개변수화에 대한 이론적 정당성을 제공하고자 한다. 차별 정보 분포(DID)를 활용하여, 선호도 레이블이 기준 정책을 목표 정책으로 변환하는 데 필요한 차별 정보를 인코딩할 때 DPO의 로그 비율 보상이 목표 정책을 학습하는 데 유일하게 최적의 형태임을 보였다. 또한, 거부된 응답에 대한 최적 샘플링 분포에 대한 폐쇄형 표현식을 도출하고, 선호도가 차별 정보를 인코딩하는 조건이 로그-마진 순서 정책에 대한 암묵적 가정과 근본적으로 연결되어 있음을 밝혔다. DID의 엔트로피 분석을 통해, 낮은 엔트로피 차별 정보 학습은 정책 분포를 강화하고, 높은 엔트로피 차별 정보 학습은 평활화 효과를 유발함으로써 로그-가능도 변위 현상을 설명하였다. 합성 실험과 실제 지시 따르기 데이터셋을 통해 이론적 결과를 검증하고, 높은 엔트로피 차별 정보 학습은 일반적인 지시 따르기에, 낮은 엔트로피 차별 정보 학습은 지식 집약적인 질문 답변에 유리함을 보였다. 결론적으로 본 논문은 차별 정보라는 관점에서 DPO 목적 함수, 선호도 데이터의 구조, 그리고 결과적인 정책 동작에 대한 통합적인 관점을 제시한다.