본 논문은 기존 클릭률 예측(CTR) 방법들이 주로 ID 모달리티에 기반하여 사용자의 다양한 선호도를 포괄적으로 모델링하지 못하는 한계를 지적하며, 다모달 CTR 예측을 위한 새로운 프레임워크인 Diffusion-based Multi-modal Synergy Interest Network (Diff-MSIN)을 제안한다. Diff-MSIN은 Multi-modal Feature Enhancement (MFE) Module, Synergistic Relationship Capture (SRC) Module, 그리고 Feature Dynamic Adaptive Fusion (FDAF) Module의 세 가지 모듈로 구성되어 있으며, 각 모듈은 다양한 모달리티 간의 상승작용, 공통점, 특수성을 추출하고, 사용자 선호도를 포착하며 융합 노이즈를 줄이는 데 초점을 맞춘다. Rec-Tmall과 세 개의 Amazon 데이터셋을 사용한 실험 결과, Diff-MSIN은 기존 방법보다 최소 1.67% 향상된 성능을 보였다.