Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Jailbreaking de grands modèles de langage multimodaux via l'incohérence de Shuffle

Created by
  • Haebom

Auteur

Shiji Zhao, Ranjie Duan, Fengxiang Wang, Chi Chen, Caixin Kang, Shouwei Ruan, Jialing Tao, YueFeng Chen, Hui Xue, Xingxing Wei

Contour

Cet article aborde la vulnérabilité du mécanisme de sécurité des modèles linguistiques multimodaux à grande échelle (MLLM). Les méthodes d'attaque par jailbreak existantes contournent le mécanisme de sécurité grâce à des techniques d'optimisation complexes ou à des invites d'images et de texte soigneusement conçues, mais présentent un faible taux de réussite contre les MLLM commerciaux fermés. Dans cet article, nous découvrons le phénomène d'incohérence de mélange entre la capacité de compréhension et la capacité de sécurité des MLLM. Autrement dit, les MLLM comprennent bien les instructions nuisibles mélangées (capacité de compréhension), mais en même temps, le mécanisme de sécurité peut être facilement contourné par ces instructions nuisibles mélangées (capacité de sécurité). Nous proposons SI-Attack, une technique d'attaque par jailbreak texte-image, en exploitant l'incohérence de mélange et en appliquant une technique d'optimisation de boîte noire basée sur des requêtes, basée sur le retour du modèle de jugement de toxicité, pour sélectionner l'entrée mélangée la plus dangereuse. Nos résultats expérimentaux montrent que SI-Attack améliore les performances d'attaque sur trois benchmarks, et en particulier, augmente considérablement le taux de réussite des attaques sur les MLLM commerciaux tels que GPT-4o et Claude-3.5-Sonnet.

Takeaways, Limitations_

Takeaways:
Nous avons découvert une nouvelle vulnérabilité dans le mécanisme de sécurité de MLLM, le phénomène de non-concordance de mélange, et avons proposé une technique d'attaque de jailbreak efficace (SI-Attack) qui l'exploite.
Taux de réussite des attaques améliorées contre les MLLM commerciaux par rapport aux méthodes existantes.
Nous présentons une nouvelle direction de recherche pour améliorer la sécurité du MLLM.
Limitations:
L’efficacité de SI-Attack peut dépendre des performances du modèle d’évaluation de la toxicité.
Cela pourrait n'être efficace que pour certains types de MLLM. Des expériences avec une plus grande variété de MLLM sont nécessaires.
Parce qu’il utilise des techniques d’optimisation de boîte noire, il peut être coûteux en termes de calcul.
👍