Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GASP : Génération efficace de suffixes contradictoires en boîte noire pour le jailbreaking des LLM

Created by
  • Haebom

Auteur

Advik Raj Basani, Xiao Zhang

Contour

Dans cet article, nous présentons Generative Adversarial Suffix Prompter (GASP), un nouveau framework automatisé pour les attaques de jailbreak qui contournent les protections des modèles de langage à grande échelle (LLM) et induisent des réponses néfastes. Pour surmonter les limites des méthodes manuelles existantes ou des attaques basées sur l'optimisation (difficulté de généralisation, génération d'invites artificielle, coût de calcul élevé), GASP génère des invites de jailbreak lisibles par l'homme en utilisant l'optimisation bayésienne latente, qui explore efficacement l'espace d'inclusion latent continu. Il améliore l'efficacité de l'attaque tout en maintenant la cohérence des invites grâce à une procédure d'amélioration itérative orientée vers les objectifs. Les résultats expérimentaux montrent que GASP est une solution efficace et évolutive qui améliore le taux de réussite du jailbreak et réduit le temps d'apprentissage et la vitesse d'inférence par rapport aux méthodes existantes.

Takeaways, Limitations

Takeaways:
Fournir un cadre d'attaque de jailbreak automatisé efficace et évolutif pour évaluer et renforcer la sécurité des LLM.
Résoudre les problèmes de faible performance de généralisation, de génération d'invite non naturelle et de coût de calcul élevé des méthodes existantes Limitations.
Identifiez efficacement les vulnérabilités dans LLM en générant des invites de jailbreak naturelles et lisibles par l'homme.
Limitations:
Les performances de GASP peuvent varier en fonction de l'implémentation spécifique du LLM et du filtre de sécurité utilisé.
En raison de la complexité de l’optimisation bayésienne latente, son application peut être difficile dans des environnements aux ressources informatiques limitées.
Les performances ne peuvent pas être garanties dans un environnement de boîte noire parfait (une certaine connaissance du fonctionnement interne du LLM peut être requise).
👍