Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Feinte et attaque : stratégies basées sur l'attention pour le jailbreak et la protection des LLM

Created by
  • Haebom

Auteur

Rui Pu, Chaozhuo Li, Rui Ha, Zejian Chen, Litian Zhang, Zheng Liu, Lirong Qiu, Zaisheng Ye

Contour

Cet article présente une étude sur les attaques par jailbreak exploitant les vulnérabilités des modèles de langage à grande échelle (LLM) pour générer du contenu malveillant. Nous nous concentrons plus particulièrement sur une méthode d'attaque courante qui perturbe les LLM en utilisant des invites ambiguës, et analysons la distribution du poids de l'attention afin de révéler la relation interne entre les invites d'entrée et les sorties des LLM. À l'aide de méthodes d'analyse statistique, nous définissons de nouvelles mesures telles que la force de l'attention (Attn_SensWords), le score contextuel (Attn_DepScore) et l'entropie de la distribution de l'attention (Attn_Entropy), et les utilisons pour proposer une stratégie d'attaque basée sur l'attention (ABA) inspirée de la stratégie d'« attaque par tromperie ». L'ABA fonctionne en modifiant la distribution de l'attention des LLM grâce à des invites qui se chevauchent afin de concentrer l'attention sur les parties bénignes. De plus, nous présentons une stratégie de défense basée sur l'attention (ABD) basée sur l'ABA pour améliorer la robustesse des LLM en ajustant la distribution de l'attention. Grâce à des résultats expérimentaux, nous vérifions l’efficacité de l’ABA et de l’ABD, et montrons que la répartition du poids de l’attention a un impact significatif sur le rendement du LLM.

Takeaways, Limitations

Takeaways:
L'analyse du mécanisme d'attention de LLM offre une nouvelle perspective sur le développement de stratégies d'attaque et de défense contre le jailbreak.
Nous proposons des stratégies pratiques d'attaque et de défense appelées ABA et ABD, et vérifions expérimentalement leur efficacité.
Nous étudions l’impact de la distribution du poids de l’attention sur la sortie de LLM, fournissant des informations importantes pour améliorer la sécurité de LLM.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des ABA et ABD proposés et leur applicabilité à divers LLM.
Il est nécessaire de vérifier l’efficacité de l’ABA et de l’ABD contre des techniques d’attaque de jailbreak plus sophistiquées et plus diverses.
Il est nécessaire de prendre en compte l’influence d’autres facteurs (par exemple, l’architecture du modèle, les données de formation) en plus de l’analyse de la répartition du poids de l’attention.
👍