Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

M2S : jailbreak multi-tours vers un seul tour en Red Teaming pour les LLM

Created by
  • Haebom

Auteur

Junwoo Ha, Hyunjun Kim, Sangyoon Yu, Haon Park, Ashkan Yousefpour, Yuna Park, Suhyun Kim

Contour

Cet article présente un nouveau cadre permettant de consolider les invites de jailbreak antagonistes multi-tours en requêtes mono-tour, réduisant ainsi considérablement l'effort manuel requis pour les tests antagonistes des modèles de langage à grande échelle (LLM). Les jailbreaks humains multi-tours ont montré des taux de réussite d'attaque élevés, mais nécessitent des ressources humaines et un temps considérables. La méthode multi-tours-mono-tour (M2S) proposée (Hyphenize, Numberize, Pythonize) reformate systématiquement les conversations multi-tours en invites structurées mono-tour. Malgré l'élimination des interactions répétitives, ces invites maintiennent et améliorent souvent l'efficacité antagoniste. Lors d'évaluations approfondies sur l'ensemble de données Multi-turn Human Jailbreak (MHJ), la méthode M2S atteint des taux de réussite d'attaque allant de 70,6 % à 95,9 % sur plusieurs LLM de pointe. Il est remarquable de constater que les invites mono-tour surpassent l'attaque multi-tours initiale jusqu'à 17,5 points de pourcentage et réduisent l'utilisation moyenne des jetons de plus de moitié. Une analyse plus approfondie révèle que l'intégration de requêtes malveillantes dans des structures telles que des énumérations ou des codes exploite les « angles morts contextuels » pour contourner les protections de base et les filtres d'entrée/sortie externes. Le framework M2S transforme les conversations à plusieurs tours en invites concises à un seul tour, offrant ainsi un outil évolutif pour les tests contradictoires à grande échelle et révélant une faiblesse critique des défenses LLM modernes.

Takeaways, Limitations

Takeaways:
Nous présentons une méthode permettant de transformer efficacement les attaques adverses à plusieurs tours en attaques à un seul tour, améliorant ainsi considérablement l'efficacité des tests adverses de LLM.
Nous démontrons que les invites à tour unique atteignent des taux de réussite d’attaque plus élevés que les invites à plusieurs tours, exposant ainsi les vulnérabilités des mécanismes de défense existants.
Nous présentons une nouvelle technique d’attaque qui exploite « l’angle mort contextuel » de LLM.
Fournit un cadre évolutif pour les tests contradictoires à grande échelle.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthode M2S proposée.
Il peut être efficace uniquement contre certains types de LLM ou certains types d’attaques adverses.
La méthode M2S pourrait ne pas être efficace contre tous les types d'attaques de jailbreak. Des évaluations plus approfondies sont nécessaires pour couvrir un plus large éventail d'attaques.
👍