본 논문은 확산 모델에서의 직접 선호도 최적화(DPO) 방법의 안정성과 오프-폴리시 편향 문제를 해결하는 새로운 방법을 제시합니다. 기존의 Diffusion-DPO는 역방향 및 순방향 확산 과정의 불일치로 인한 시간 단계 의존적 불안정성과 최적화 및 데이터 수집 정책의 불일치로 인한 오프-폴리시 편향 문제를 겪습니다. 본 논문에서는 먼저 역 확산 경로를 분석하여 불안정성이 주로 중요도 가중치가 낮은 초기 시간 단계에서 발생함을 확인하고, 이를 해결하기 위해 정보가 없는 시간 단계를 클리핑 및 마스킹하여 안정성을 향상시키고 오프-폴리시 편향을 부분적으로 완화하는 DPO-C&M을 제안합니다. 더 나아가, 중요도 샘플링을 목적 함수에 통합하여 오프-폴리시 편향을 완전히 수정하고 확산 과정 중 정보가 풍부한 업데이트를 강조하는 SDPO(Importance-Sampled Direct Preference Optimization)를 제시합니다. CogVideoX-2B, CogVideoX-5B 및 Wan2.1-1.3B에 대한 실험 결과, 두 방법 모두 표준 Diffusion-DPO보다 우수한 성능을 보이며, 특히 SDPO는 VBench 점수, 사람의 선호도 정렬 및 훈련 강건성 측면에서 더 나은 결과를 얻었습니다. 이러한 결과는 확산 기반 선호도 학습에서 시간 단계 인식 및 분포 수정 최적화의 중요성을 강조합니다.