Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CAVGAN : Unifier le jailbreak et la défense des LLM via des attaques antagonistes génératives sur leurs représentations internes

Created by
  • Haebom

Auteur

Xiaohu Li, Yunfeng Ning, Zepeng Bao, Mayi Xu, Jianhao Chen, Tieyun Qian

Contour

Cet article propose un nouveau cadre intégrant attaques et défenses pour remédier aux vulnérabilités du mécanisme d'alignement de sécurité des modèles de langage à grande échelle (LLM). Compte tenu de la séparabilité linéaire des intégrations de la couche intermédiaire des LLM et de la nature inhérente des attaques de jailbreak, qui propagent des requêtes malveillantes vers des régions sécurisées, nous utilisons un réseau antagoniste génératif (GAN) pour identifier les limites de décision de sécurité au sein des LLM. Les résultats expérimentaux démontrent un taux de réussite moyen de jailbreak de 88,85 % sur trois LLM majeurs et un taux de réussite moyen de défense de 84,17 % sur un jeu de données de jailbreak de pointe, validant l'efficacité de la méthode proposée et apportant de nouvelles perspectives sur les mécanismes de sécurité internes des LLM. Le code et les données sont disponibles à l'adresse https://github.com/NLPGM/CAVGAN .

Takeaways, Limitations_

Takeaways:
Fournit une nouvelle compréhension des mécanismes de sécurité interne du LLM.
Nous présentons un cadre d’attaque et de défense de jailbreak efficace utilisant des GAN.
L'efficacité de la méthode est démontrée par l'obtention de taux de réussite élevés en matière de jailbreak (88,85 %) et de défense (84,17 %).
Nous présentons une nouvelle direction pour renforcer la sécurité du LLM.
Limitations:
ÉTant donné que ces résultats sont expérimentaux sur des ensembles de données LLM et Jailbreak spécifiques, des recherches supplémentaires sont nécessaires pour déterminer leur généralisabilité.
Les méthodes basées sur GAN peuvent être coûteuses en termes de calcul.
Une validation supplémentaire de son adaptabilité aux nouvelles techniques d’attaque de jailbreak est nécessaire.
👍