Cet article aborde la vulnérabilité du mécanisme de sécurité des modèles linguistiques multimodaux à grande échelle (MLLM). Les méthodes d'attaque par jailbreak existantes contournent le mécanisme de sécurité grâce à des techniques d'optimisation complexes ou à des invites d'images et de texte soigneusement conçues, mais présentent un faible taux de réussite contre les MLLM commerciaux fermés. Dans cet article, nous découvrons le phénomène d'incohérence de mélange entre la capacité de compréhension et la capacité de sécurité des MLLM. Autrement dit, les MLLM comprennent bien les instructions nuisibles mélangées (capacité de compréhension), mais en même temps, le mécanisme de sécurité peut être facilement contourné par ces instructions nuisibles mélangées (capacité de sécurité). Nous proposons SI-Attack, une technique d'attaque par jailbreak texte-image, en exploitant l'incohérence de mélange et en appliquant une technique d'optimisation de boîte noire basée sur des requêtes, basée sur le retour du modèle de jugement de toxicité, pour sélectionner l'entrée mélangée la plus dangereuse. Nos résultats expérimentaux montrent que SI-Attack améliore les performances d'attaque sur trois benchmarks, et en particulier, augmente considérablement le taux de réussite des attaques sur les MLLM commerciaux tels que GPT-4o et Claude-3.5-Sonnet.