Este artículo propone MMoE, una red multimodal para la detección de spoilers en sitios web de reseñas de películas. A diferencia de los métodos existentes que se centran únicamente en el contenido textual de las reseñas, MMoE aprovecha la información multimodal extrayendo características gráficas, textuales y metadatos de la red usuario-película, el contenido textual de las reseñas y sus metadatos. Para gestionar el lenguaje de spoilers específico para cada género, MMoE adopta una arquitectura de mezcla de expertos para mejorar la robustez, y una capa de fusión de expertos integra características desde diferentes perspectivas para la predicción. Los resultados experimentales demuestran que MMoE supera a los métodos más avanzados en un 2,56 % y un 8,41 % en precisión y puntuación F1, respectivamente, en dos conjuntos de datos de detección de spoilers ampliamente utilizados, lo que demuestra una robustez y un rendimiento de generalización superiores. El código está disponible en GitHub.