Este artículo presenta un enfoque multimodal para detectar sexismo en contenido de video en línea, particularmente en plataformas de redes sociales como TikTok y Vitut. Presentamos un novedoso conjunto de datos de detección de sexismo multimodal en español, MuSeD (aproximadamente 11 horas de video), y proponemos un marco de anotación innovador que analiza las contribuciones del texto, el habla y las modalidades visuales. Evaluamos varios modelos de lenguaje a gran escala (LLM) y LLM multimodales en tareas de detección de sexismo, encontrando que la información visual juega un papel crucial en el etiquetado de contenido sexista. Si bien los modelos detectan eficazmente el sexismo explícito, tienen dificultades con las formas implícitas de sexismo, como los estereotipos, lo que es consistente con un bajo acuerdo entre anotadores. Esto subraya la dificultad inherente de identificar el sexismo implícito, ya que depende del contexto social y cultural.