[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

STACK : Attaques adverses contre les pipelines de sauvegarde LLM

Created by
  • Haebom

Auteur

Ian R. McKenzie, Oskar J. Hollinsworth, Tom Tseng, Xander Davies, Stephen Casper, Aaron D. Tucker, Robert Kirk, Adam Gleave

Contour

Cet article est une étude sur l'évaluation et l'attaque des vulnérabilités de sécurité dans les pipelines de défense utilisés pour prévenir les utilisations abusives catastrophiques des systèmes d'IA de pointe. Nous avons développé un pipeline de défense open source et réalisé des tests contradictoires (red-teaming). Notre nouveau classificateur d'entrées et de sorties basé sur des invites à quelques coups surpasse le modèle de pointe précédent, ShieldGemma, et atteint un taux de réussite de 71 % lors d'attaques en boîte noire sur ce pipeline de classificateur grâce à notre procédure STaged AttaCK (STACK). Nous avons également obtenu un taux de réussite de 33 % dans le contexte de transition, démontrant ainsi que des attaques peuvent être conçues sans accéder au pipeline cible. Enfin, nous présentons des mesures d'atténuation que les développeurs peuvent utiliser pour prévenir les attaques en plusieurs étapes.

Takeaways, Limitations

Takeaways:
Expose les vulnérabilités de sécurité dans le pipeline de défense des systèmes d’IA de pointe.
Nous présentons un nouveau classificateur d'entrée et de sortie basé sur des invites à quelques coups et une technique d'attaque STaged AttaCK (STACK).
Potentiel d'attaque démontré dans les paramètres de boîte noire et de transition.
Proposer des mesures d’atténuation pour prévenir les attaques en plusieurs étapes.
Limitations:
Le pipeline de défense utilisé dans l’évaluation est open source, il peut donc y avoir des différences par rapport au système de déploiement réel.
Une vérification supplémentaire de la généralisabilité de l’attaque STACK et de son efficacité contre d’autres mécanismes de défense est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer l’efficacité des mesures d’atténuation proposées.
👍