Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MuSeD : un ensemble de données multimodales en espagnol pour la détection du sexisme dans les vidéos sur les réseaux sociaux

Created by
  • Haebom

Auteur

Laura De Grazia, Pol Pastells, Mauro Vazquez Chas, Desmond Elliott, Danae Sanchez Villegas, Mireia Farr us, Mariona Taul e

Contour

Cet article présente une approche multimodale pour détecter le sexisme dans les contenus vidéo en ligne, notamment sur les plateformes de médias sociaux comme TikTok et Vitut. Nous introduisons un nouvel ensemble de données multimodales de détection du sexisme en espagnol, MuSeD (environ 11 heures de vidéo), et proposons un cadre d'annotation innovant qui analyse les contributions du texte, de la parole et des modalités visuelles. Nous évaluons divers modèles linguistiques à grande échelle (MLL) et multimodaux sur des tâches de détection du sexisme, constatant que l'information visuelle joue un rôle crucial dans l'étiquetage des contenus sexistes. Si ces modèles détectent efficacement le sexisme explicite, ils peinent à identifier les formes implicites de sexisme, telles que les stéréotypes, ce qui est cohérent avec une faible concordance entre annotateurs. Cela souligne la difficulté inhérente à l'identification du sexisme implicite, car celui-ci dépend du contexte social et culturel.

Takeaways, Limitations_

Takeaways:
Présentation de MuSeD, un nouvel ensemble de données multimodales permettant de détecter la discrimination fondée sur le sexe dans le contenu vidéo des médias sociaux.
Nous présentons un cadre d’annotation innovant de détection de discrimination sexuelle qui intègre des modalités textuelles, vocales et visuelles.
ÉValuer les performances de détection de discrimination de genre dans divers LLM et LLM multimodaux et confirmer l'importance des informations visuelles.
Souligne la difficulté de détecter le sexisme implicite et l’importance du contexte socioculturel.
Limitations:
L'ensemble de données est entièrement composé d'espagnol, ce qui limite la généralisation à d'autres langues.
Le modèle a du mal à détecter le sexisme implicite (stéréotypes, etc.).
Il existe des inquiétudes quant à la fiabilité des annotations, car il existe des cas où le niveau de concordance entre les annotateurs est faible.
👍