Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Méthode Doppelganger : rupture de la cohérence des rôles dans l'agent LLM via une attaque antagoniste transférable basée sur des invites

Created by
  • Haebom

Auteur

Daewon Kang, YeongHwan Shin, Doyeon Kim, Kyu-Hwan Jung, Meong Hi Son

Contour

Cet article aborde la question de la commodité de l'ingénierie des prompts pour les agents autonomes basés sur des modèles de langage à grande échelle, ainsi que la sécurité, la robustesse et la cohérence comportementale qui en résultent. Nous nous concentrons plus particulièrement sur le risque d'exposition des prompts à des tentatives malveillantes de la part des utilisateurs et proposons la « méthode Doppelganger » pour pirater l'agent et exposer les commandes système et les informations internes. Pour évaluer la vulnérabilité à de telles attaques, nous définissons le niveau « Effondrement de l'alignement des prompts sous transfert contradictoire (PACAT) » et présentons l'invite « Attention au transfert contradictoire (CAT) » correspondant à la méthode Doppelganger. Les résultats expérimentaux montrent que la méthode Doppelganger peut compromettre la cohérence de l'agent et exposer ses informations internes, et démontrent que l'invite CAT peut efficacement se défendre contre de telles attaques.

Takeaways, Limitations

Takeaways:
Cela représente une menace sérieuse pour la sécurité et la robustesse rapides des agents basés sur des modèles linguistiques à grande échelle.
La méthode Doppelganger démontre le danger réel des attaques adverses.
Il souligne l’importance de développer des mécanismes défensifs tels que les invites CAT.
Les niveaux PACAT fournissent des critères permettant d’évaluer quantitativement la vulnérabilité d’une invite.
Limitations:
L'efficacité des invites CAT peut varier en fonction du type d'attaque spécifique et de l'implémentation de l'agent.
Il existe encore un manque de stratégies de défense généralisées contre divers types d’attaques adverses.
En raison des limites de l’environnement expérimental, des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité aux contextes du monde réel.
👍