Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Défense des LVLM contre les attaques visuelles grâce à la supervision de la perception partielle

Created by
  • Haebom

Auteur

Qi Zhou, Tianlin Li, Qing Guo, Dongxia Wang, Yun Lin, Yang Liu, Jin Song Dong

Contour

Cet article aborde la vulnérabilité des modèles de langage de vision à grande échelle (LVLM) aux images d'entrée injectées ou altérées de manière malveillante. Les méthodes de défense existantes permettent de contrer les attaques visuelles susceptibles de modifier les images (recadrage partiel), mais ces modifications génèrent des images partielles et déforment la sémantique, dégradant ainsi la qualité des réponses aux images propres après le vote. Au lieu d'utiliser directement les réponses des images partielles pour voter, cet article propose une méthode de supervision des réponses LVLM aux images originales. Nous proposons une approche boîte noire sans apprentissage, appelée supervision consciente des parties (DPS), qui utilise les réponses générées par un modèle ne reconnaissant que les images partielles pour lui fournir des invites. La DPS permet au modèle d'ajuster ses réponses en fonction de sa compréhension partielle de l'image lorsqu'il est attaqué, tout en conservant en toute confiance ses réponses originales pour les entrées propres. Les résultats expérimentaux démontrent qu'un modèle faible peut superviser un modèle fort. Le modèle fort, attaqué, perd confiance et adapte ses réponses en fonction de la compréhension partielle du modèle faible, se défendant ainsi efficacement contre les attaques. Sur six ensembles de données répartis sur trois modèles populaires, nous démontrons une réduction moyenne du taux de réussite des attaques de 76,3 %.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle technique de défense contre les attaques adverses sur les modèles de langage de vision à grande échelle en exploitant des informations d'image partielles.
Nous surmontons les limites des méthodes de défense basées sur le vote existantes et présentons une méthode efficace pour se défendre contre les attaques sans dégrader la qualité de réponse des images propres.
Nous présentons une approche originale de supervision d’un modèle fort en exploitant un modèle faible.
Il démontre des performances de défense élevées sur divers ensembles de données et modèles.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si la méthode DPS proposée est efficace contre tous les types d’attaques visuelles.
Les performances de défense peuvent être dégradées contre certains types d’images partielles ou certains vecteurs d’attaque.
Comme il s’agit d’une approche de type boîte noire, il peut y avoir un manque de compréhension des mécanismes de fonctionnement internes du modèle.
Une validation supplémentaire de l’applicabilité dans des environnements réels est nécessaire.
👍