Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PromptKeeper : invites du système de sauvegarde pour les LLM

Created by
  • Haebom

Auteur

Zhifeng Jiang, Zhihua Jin, Guoliang He

Contour

Cet article propose un mécanisme de défense appelé PromptKeeper pour répondre aux problèmes de sécurité liés aux invites système qui guident la sortie des modèles de langage à grande échelle (LLM). Les invites système contiennent souvent de la logique métier et des informations sensibles, ce qui les rend vulnérables à l'exploitation des vulnérabilités des LLM par des requêtes malveillantes ou courantes. PromptKeeper répond à deux défis majeurs : détecter de manière fiable les fuites d'invites et atténuer les vulnérabilités des canaux auxiliaires en cas de fuite. En considérant la détection des fuites comme un problème de test d'hypothèses, il identifie efficacement les fuites explicites et subtiles. Lorsqu'une fuite est détectée, il régénère les réponses à l'aide d'invites factices, les rendant indiscernables des interactions normales sans fuite. Par conséquent, il offre une protection robuste contre les attaques par extraction d'invites via des requêtes malveillantes ou courantes, tout en préservant les capacités conversationnelles et l'efficacité d'exécution des interactions utilisateur classiques.

Takeaways, Limitations

Takeaways:
Fournir des solutions efficaces aux menaces de sécurité dans les invites du système LLM.
Fournit une défense solide contre les attaques malveillantes et les requêtes courantes des utilisateurs.
Présentation d’un mécanisme efficace pour la détection et l’atténuation rapides des fuites.
Maintenir les compétences conversationnelles et l'efficacité d'exécution
Limitations:
Une évaluation plus approfondie des performances et de la stabilité du mécanisme de défense proposé dans des environnements réels est nécessaire.
La vérification de la généralisabilité est nécessaire pour différents types de LLM et de techniques d’attaque.
L'optimisation et l'amélioration de la sécurité de la stratégie de génération d'invites factices sont nécessaires.
Les frais généraux supplémentaires et la dégradation des performances qui peuvent survenir lors de l’application à des systèmes réels doivent être analysés.
👍