본 논문은 이산 확산 모델을 선호도 데이터를 사용하여 미세 조정하는 새로운 방법인 이산 확산 DPO(D2-DPO)를 제안합니다. D2-DPO는 연속 시간 마르코프 체인으로 공식화된 이산 확산 모델에 직접 선호도 최적화(DPO)를 처음으로 적용한 방법입니다. 명시적인 보상 함수 없이도 선호도에 맞춰 모델 출력을 효과적으로 정렬하면서 기준 분포에 대한 충실도를 유지하는 새로운 손실 함수를 도출합니다. 구조화된 이진 시퀀스 생성 작업에서 D2-DPO의 유효성을 검증하여 선호도에 맞춰 모델 출력을 효과적으로 정렬하면서 구조적 유효성을 유지함을 보여줍니다. 강화 학습 기반 접근 방식에 대한 실용적인 대안을 제공합니다. 향후 연구는 언어 모델링 및 단백질 시퀀스 생성을 포함한 보다 복잡한 생성 작업으로 D2-DPO를 확장하고, 다양한 응용 프로그램에서 유연성을 높이기 위해 균일 노이징과 같은 대체 노이즈 일정을 조사할 계획입니다.