Direct Preference Optimization (DPO)를 베이시안 관점에서 접근하여, DPO가 참조 정책을 목표 정책으로 업데이트하는 데 필요한 차등 정보를 학습하는 과정으로 해석합니다. 이를 위해 Differential Information Distribution (DID)을 도입하고, DPO의 로그 비율 보상이 DID를 통해 정당화됨을 밝힙니다. 또한 DID의 특성이 DPO 훈련 역학 및 다운스트림 성능에 미치는 영향을 분석합니다.