Cet article propose MMoE, un réseau multimodal pour la détection de spoilers sur les sites de critiques de films en ligne. Contrairement aux méthodes existantes qui se concentrent uniquement sur le contenu textuel des critiques, MMoE exploite les informations multimodales en extrayant des graphes, du texte et des méta-caractéristiques du réseau utilisateur-film, du contenu textuel des critiques et de leurs métadonnées. Pour gérer le langage spoiler spécifique au genre, MMoE adopte une architecture Mixture-of-Experts pour améliorer la robustesse, et une couche de fusion experte intègre des caractéristiques issues de différentes perspectives pour la prédiction. Les résultats expérimentaux démontrent que MMoE surpasse les méthodes de pointe de respectivement 2,56 % et 8,41 % en termes de précision et de score F1, sur deux jeux de données de détection de spoilers largement utilisés, démontrant ainsi une robustesse et des performances de généralisation supérieures. Le code est disponible sur GitHub.