Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rainbow Noise : Test de résistance des détecteurs multimodaux de mèmes nocifs sur les contenus LGBTQ

Created by
  • Haebom

Auteur

Ran Tong, Songtao Wei, Jiaqi Liu, Lanruo Wang

Contour

Cet article aborde le problème des mèmes haineux ciblant la communauté LGBTQ+ qui échappent aux systèmes de détection, même en modifiant légèrement les légendes ou les images. À l'aide du jeu de données PrideMM, nous construisons le premier benchmark de robustesse en combinant quatre attaques de légendes réalistes et trois corruptions d'images courantes. En utilisant deux détecteurs de pointe, MemeCLIP et MemeBLIP2, comme études de cas, nous présentons un adaptateur de débruitage de texte (TDA) léger qui améliore la résilience de MemeBLIP2. Les résultats expérimentaux montrent que MemeCLIP se dégrade plus doucement, tandis que MemeBLIP2 est particulièrement sensible à la modification des légendes qui interfère avec le traitement du langage. Cependant, l'ajout de TDA non seulement corrige cette faiblesse, mais fait également de MemeBLIP2 le modèle le plus robuste. Une analyse plus approfondie révèle que, si tous les systèmes reposent fortement sur le texte, le choix de l'architecture et les données de pré-apprentissage ont un impact significatif sur la robustesse. Ce benchmark met en évidence les vulnérabilités des modèles de sécurité multimodaux actuels et démontre que des modules ciblés et légers comme TDA constituent un moyen efficace de renforcer les défenses.

Takeaways, Limitations_

Takeaways:
Nous soulignons les défis liés à la détection des mèmes haineux ciblant la communauté LGBTQ+ et la nécessité de développer des modèles robustes pour y remédier.
Nous comparons et analysons les forces et les faiblesses de MemeCLIP et MemeBLIP2 pour suggérer de futures directions de développement de modèles.
Nous démontrons que la robustesse des modèles de sécurité multimodaux peut être améliorée grâce à des modules TDA légers.
Nous soulignons l’importance de la sélection de l’architecture et des données de pré-formation dans la robustesse des modèles multimodaux.
Limitations:
Compte tenu de la dépendance à l’égard de l’ensemble de données PrideMM, des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à d’autres ensembles de données.
Elle peut se limiter à une évaluation d’un type spécifique d’attaque, plutôt qu’à une évaluation complète de tous les types d’attaques.
L’efficacité de l’analyse TDA peut être limitée à des modèles et ensembles de données spécifiques, et des recherches supplémentaires sont nécessaires pour déterminer sa généralisabilité à d’autres modèles et ensembles de données.
👍