Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

IDÉATEUR : Jailbreaking et benchmarking de grands modèles vision-langage en les utilisant eux-mêmes

Created by
  • Haebom

Auteur

Ruofan Wang, Juncheng Li, Yixu Wang, Bo Wang, Xiaosen Wang, Yan Teng, Yingchun Wang, Xingjun Ma, Yu-Gang Jiang

Contour

Cet article propose IDEATOR, une nouvelle méthode d'évaluation de la robustesse des modèles vision-langage (VLM) à grande échelle contre les attaques de jailbreak induisant des sorties malveillantes, pour un déploiement sécurisé des VLM. Afin de pallier le manque de données multimodales diversifiées, une limitation des recherches existantes, nous exploitons le VLM lui-même pour générer des paires de textes et d'images de jailbreak ciblés, générés par des modèles de propagation de pointe. IDEATOR atteint un taux de réussite des attaques (ASR) de 94 % contre MiniGPT-4 et des ASR élevés contre LLaVA, InstructBLIP et Chameleon, démontrant ainsi son efficacité et sa transférabilité. De plus, nous présentons VLJailbreakBench, un benchmark de sécurité composé de 3 654 échantillons de jailbreak multimodaux. Nous démontrons un alignement significatif des normes de sécurité sur 11 VLM récemment publiés (par exemple, GPT-4o avec 46,31 % d'ASR et Claude-3.5-Sonnet avec 19,65 % d'ASR).

Takeaways, Limitations_

Takeaways:
IDEATOR, une nouvelle méthode d'attaque de jailbreak utilisant VLM lui-même, est présentée et sa grande efficacité et sa transférabilité sont démontrées.
VLJailbreakBench, un benchmark de sécurité pour divers VLM, est publié.
Il expose de graves vulnérabilités dans la sécurité actuelle du VLM et souligne la nécessité de défenses plus solides.
Limitations:
Les performances d'IDEATOR peuvent dépendre du modèle de diffusion utilisé et des performances du VLM.
La portée de VLJailbreakBench peut être limitée et un ensemble de données plus diversifié et plus étendu peut être requis.
IDEATOR ne peut pas garantir la même efficacité pour tous les VLM (possibilité de développer des mécanismes de défense pour des modèles spécifiques).
👍