Cet article présente une étude sur les attaques par jailbreak exploitant les vulnérabilités des modèles de langage à grande échelle (LLM) pour générer du contenu malveillant. Nous nous concentrons plus particulièrement sur une méthode d'attaque courante qui perturbe les LLM en utilisant des invites ambiguës, et analysons la distribution du poids de l'attention afin de révéler la relation interne entre les invites d'entrée et les sorties des LLM. À l'aide de méthodes d'analyse statistique, nous définissons de nouvelles mesures telles que la force de l'attention (Attn_SensWords), le score contextuel (Attn_DepScore) et l'entropie de la distribution de l'attention (Attn_Entropy), et les utilisons pour proposer une stratégie d'attaque basée sur l'attention (ABA) inspirée de la stratégie d'« attaque par tromperie ». L'ABA fonctionne en modifiant la distribution de l'attention des LLM grâce à des invites qui se chevauchent afin de concentrer l'attention sur les parties bénignes. De plus, nous présentons une stratégie de défense basée sur l'attention (ABD) basée sur l'ABA pour améliorer la robustesse des LLM en ajustant la distribution de l'attention. Grâce à des résultats expérimentaux, nous vérifions l’efficacité de l’ABA et de l’ABD, et montrons que la répartition du poids de l’attention a un impact significatif sur le rendement du LLM.