Cet article aborde le problème des mèmes haineux ciblant la communauté LGBTQ+ qui échappent aux systèmes de détection, même en modifiant légèrement les légendes ou les images. À l'aide du jeu de données PrideMM, nous construisons le premier benchmark de robustesse en combinant quatre attaques de légendes réalistes et trois corruptions d'images courantes. En utilisant deux détecteurs de pointe, MemeCLIP et MemeBLIP2, comme études de cas, nous présentons un adaptateur de débruitage de texte (TDA) léger qui améliore la résilience de MemeBLIP2. Les résultats expérimentaux montrent que MemeCLIP se dégrade plus doucement, tandis que MemeBLIP2 est particulièrement sensible à la modification des légendes qui interfère avec le traitement du langage. Cependant, l'ajout de TDA non seulement corrige cette faiblesse, mais fait également de MemeBLIP2 le modèle le plus robuste. Une analyse plus approfondie révèle que, si tous les systèmes reposent fortement sur le texte, le choix de l'architecture et les données de pré-apprentissage ont un impact significatif sur la robustesse. Ce benchmark met en évidence les vulnérabilités des modèles de sécurité multimodaux actuels et démontre que des modules ciblés et légers comme TDA constituent un moyen efficace de renforcer les défenses.