Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Devinez-moi ceci ! Inférence d'appartenance furtive pour la génération augmentée par récupération

Created by
  • Haebom

Auteur

Ali Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr

Contour

La génération augmentée par récupération (RAG) permet aux modèles linguistiques à grande échelle (LLM) de générer des réponses éclairées en exploitant des bases de données de connaissances externes sans modifier les paramètres du modèle. Cependant, sans ajustement des pondérations, des attaquants par inférence risquent d'exploiter les documents extraits du contexte du modèle. Les méthodes existantes d'inférence d'appartenance et d'extraction de données reposent souvent sur des jailbreaks ou des questions artificielles soigneusement élaborées, faciles à détecter ou à contourner grâce aux techniques courantes de réécriture de requêtes dans les systèmes RAG. Dans cet article, nous présentons l'attaque par interrogation (IA), une technique d'inférence d'appartenance ciblant les documents d'un référentiel RAG. En formulant des requêtes en langage naturel permettant uniquement de déterminer si un document cible existe, notre méthode réussit l'inférence en seulement 30 requêtes tout en préservant sa discrétion. Un simple détecteur identifie jusqu'à environ 76 fois moins d'invites générées par notre attaque que celles générées par les méthodes existantes. Nous observons une amélioration de 2x du TPR à 1 % FPR par rapport aux attaques d'inférence précédentes sur une variété de configurations RAG, avec un coût d'inférence inférieur à 0,02 $ par document.

Takeaways, Limitations

Takeaways: Nous présentons une nouvelle attaque par inférence d'appartenance qui démontre la vulnérabilité du système RAG. Nous démontrons qu'elle permet d'effectuer l'inférence d'appartenance de manière plus efficace et plus furtive que les méthodes existantes. Elle atteint une grande précision à faible coût.
Limitations : Il s'agit d'une évaluation de l'efficacité de l'attaque sur un système RAG spécifique. Une vérification plus approfondie de sa généralisabilité à d'autres systèmes ou ensembles de données RAG est nécessaire. Le succès de l'attaque peut être affecté par les caractéristiques du stockage des données et la qualité des questions. Cela suggère la nécessité de développer des mécanismes de détection et de défense plus sophistiqués.
👍