Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Jailbreak au niveau du pré-remplissage : une analyse des risques en boîte noire des grands modèles de langage

Created by
  • Haebom

Auteur

Yakai Li, Jiekang Hu, Weiduan Sang, Luping Ma, Dongsheng Nie, Weijuan Zhang, Aimin Yu, Yi Su, Qingjia Huang, Qihang Zhou

Contour

Cet article présente les résultats d'une étude sur les attaques par rejeu, une menace pour la sécurité des modèles de langage à grande échelle (MLL). L'accent est mis sur les attaques qui exploitent la fonctionnalité de préremplissage des réponses contrôlée par l'utilisateur, plutôt que sur les attaques au niveau des invites, principalement étudiées dans les études précédentes. Le préremplissage permet aux attaquants de manipuler le début de la sortie du modèle, faisant passer le paradigme d'attaque basé sur la persuasion à une manipulation directe de l'état du modèle. Une analyse de sécurité en boîte noire a été réalisée sur 14 LLM afin de classer les attaques par rejeu au niveau du préremplissage et d'évaluer leur efficacité. Les résultats expérimentaux montrent que les attaques utilisant des méthodes adaptatives ont atteint des taux de réussite supérieurs à 99 % sur plusieurs modèles, et l'analyse de probabilité au niveau du jeton a confirmé que la manipulation de l'état initial a entraîné un changement de probabilité du premier jeton, du rejet à la coopération. De plus, nous démontrons que les attaques par rejeu au niveau du préremplissage améliorent efficacement le taux de réussite des attaques au niveau des invites existantes de 10 à 15 points de pourcentage. L'évaluation de plusieurs stratégies de défense a révélé que les filtres de contenu existants offrent une protection limitée et que les méthodes de détection axées sur la relation opérationnelle entre les invites et le préremplissage sont plus efficaces. En conclusion, nous exposons les vulnérabilités de l’alignement actuel de la sécurité LLM et soulignons la nécessité de traiter les surfaces d’attaque pré-remplies dans les futures formations en sécurité.

Takeaways, Limitations_

Takeaways:
Nous révélons l’existence et la gravité d’un nouveau type d’attaque de re-break qui exploite la fonctionnalité de pré-remplissage de réponse contrôlée par l’utilisateur.
Nous montrons que les attaques de pré-remplissage peuvent amplifier les attaques existantes basées sur des invites.
Il expose les limites des filtres de contenu existants et suggère la nécessité d’une nouvelle méthode de détection basée sur la relation entre les invites et les préremplissages.
Proposer des pistes de recherche pour améliorer la sécurité du LLM (en réponse aux attaques de pré-remplissage).
Limitations:
Limites sur les types et le nombre de modèles à analyser (14 modèles).
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthode de détection proposée et son application aux environnements réels.
Une analyse complète des différents types d’attaques de pré-remplissage peut faire défaut.
👍