Este artículo señala las limitaciones de los métodos actuales de predicción de la tasa de clics (CTR), que se basan principalmente en la modalidad de identificación y, por lo tanto, no logran modelar exhaustivamente las diversas preferencias de los usuarios. Proponemos un nuevo marco para la predicción multimodal de CTR: la Red de Interés de Sinergia Multimodal Basada en Difusión (Diff-MSIN). Diff-MSIN consta de tres módulos: el módulo de Mejora de Características Multimodales (MFE), el módulo de Captura de Relaciones Sinérgicas (SRC) y el módulo de Fusión Adaptativa Dinámica de Características (FDAF). Cada módulo se centra en extraer sinergias, puntos en común y características distintivas entre diversas modalidades, capturar las preferencias de los usuarios y reducir el ruido de fusión. Los resultados experimentales con Rec-Tmall y tres conjuntos de datos de Amazon muestran que Diff-MSIN supera a los métodos existentes en al menos un 1,67 %.