Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Quelques mots peuvent déformer les graphiques : attaques par empoisonnement des connaissances sur la récupération basée sur les graphiques – génération augmentée de grands modèles de langage

Created by
  • Haebom

Auteur

Jiayi Wen, Tianxin Chen, Zhirun Zheng, Cheng Huang

Contour

Cet article présente deux attaques par empoisonnement des connaissances (KPA) qui exploitent les vulnérabilités du modèle GraphRAG (Graph-based Retrieval-Augmented Generation). GraphRAG transforme le texte brut en un graphe de connaissances structuré afin d'améliorer la précision et l'explicabilité des LLM. Nous abordons le risque de manipulation malveillante du processus d'extraction des connaissances du LLM à partir du texte brut. Les deux attaques proposées sont le KPA ciblé (TKPA) et le KPA universel (UKPA). Le TKPA utilise l'analyse théorique des graphes pour identifier les nœuds vulnérables du graphe généré et réécrit les descriptions correspondantes en LLM, contrôlant précisément les résultats spécifiques des questions-réponses (QA). L'UKPA exploite des indices linguistiques, tels que les pronoms et les dépendances, pour altérer les mots à influence globale, détruisant ainsi l'intégrité structurelle du graphe généré. Les résultats expérimentaux démontrent que même de petites modifications textuelles peuvent considérablement dégrader la précision de l'AQ de GraphRAG, soulignant l'échec des techniques de défense existantes à détecter ces attaques.

Takeaways, Limitations

Takeaways: Cet article démontre les vulnérabilités de sécurité des modèles de génération de graphes de connaissances basés sur LLM, tels que GraphRAG, et présente une nouvelle technique d'attaque et son efficacité contre les attaques par empoisonnement des connaissances. Il expose les limites des techniques de défense existantes et souligne la nécessité de recherches pour renforcer la sécurité du modèle GraphRAG. TKPA et UKPA présentent des taux de réussite d'attaque élevés et peuvent avoir un impact significatif sur les performances, même de petites modifications de texte.
Limitations : L'attaque présentée ici est spécifique à une implémentation GraphRAG spécifique, et sa généralisation à d'autres implémentations ou architectures LLM nécessite des recherches supplémentaires. L'efficacité de l'attaque en situation réelle nécessite des vérifications supplémentaires. Si l'absence de technique de défense proposée suggère une orientation pour les recherches futures, les stratégies de défense spécifiques manquent d'analyse.
👍