Cet article présente une approche multimodale pour détecter le sexisme dans les contenus vidéo en ligne, notamment sur les plateformes de médias sociaux comme TikTok et Vitut. Nous introduisons un nouvel ensemble de données multimodales de détection du sexisme en espagnol, MuSeD (environ 11 heures de vidéo), et proposons un cadre d'annotation innovant qui analyse les contributions du texte, de la parole et des modalités visuelles. Nous évaluons divers modèles linguistiques à grande échelle (MLL) et multimodaux sur des tâches de détection du sexisme, constatant que l'information visuelle joue un rôle crucial dans l'étiquetage des contenus sexistes. Si ces modèles détectent efficacement le sexisme explicite, ils peinent à identifier les formes implicites de sexisme, telles que les stéréotypes, ce qui est cohérent avec une faible concordance entre annotateurs. Cela souligne la difficulté inhérente à l'identification du sexisme implicite, car celui-ci dépend du contexte social et culturel.