En este artículo, proponemos una novedosa red de fusión temporal multiescala basada en la atención (AMTFNet) para el diagnóstico de fallos en procesos multimodales. Para superar la dificultad de extraer características compartidas debido a la diferencia en la distribución de datos multimodales, extraemos características locales multiescala y características a corto y largo plazo mediante convoluciones multiescala en profundidad y unidades recurrentes con compuertas, y suprimimos la información específica del modo mediante la normalización de instancias. Además, mejoramos la precisión del diagnóstico de fallos centrándonos en los puntos temporales críticos donde la información compartida entre multimodales es alta mediante el mecanismo de atención temporal. Los resultados experimentales en los conjuntos de datos del proceso Tennessee Eastman y el conjunto de datos de instalaciones de flujo trifásico demuestran que el modelo propuesto tiene un excelente rendimiento de diagnóstico y un tamaño de modelo reducido. El código fuente se publicará en GitHub.