Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SMA : Qui a dit ça ? Audit des fuites d'adhésions dans le contrôle RAG semi-noir

Created by
  • Haebom

Auteur

Shixuan Sun, Siyuan Liang, Ruoyu Chen, Jianjie Huang, Jingzhi Li, Xiaochun Cao

Contour

Cet article propose la première méthodologie d'audit d'appartenance tenant compte de la source (SMA) qui identifie précisément la source du contenu généré par génération augmentée de recherche (RAG) et génération augmentée de recherche multimodale (MRAG). Pour surmonter les limites des méthodes d'inférence d'appartenance existantes, qui ne permettent pas d'identifier précisément les sources (données d'apprentissage par transfert, résultats de recherche externes et saisie utilisateur) du contenu généré en raison de la complexité des systèmes RAG/MRAG, nous utilisons un mécanisme d'estimation d'attributs basé sur l'optimisation d'ordre zéro et des techniques d'attributs intermodaux. Plus précisément, nous utilisons MLLM pour convertir les images en texte, permettant ainsi l'inférence d'appartenance sur l'historique de recherche d'images dans les systèmes MRAG. Cela offre une nouvelle perspective qui se concentre sur la provenance du contenu plutôt que sur la mémorisation des données.

Takeaways, Limitations_

Takeaways:
Une nouvelle méthodologie est présentée pour identifier précisément la source du contenu généré dans les systèmes RAG/MRAG.
Audit efficace même dans des environnements semi-boîte noire grâce à un mécanisme d'estimation d'attributs basé sur l'optimisation d'ordre zéro.
Activation de l'inférence d'appartenance pour les enregistrements de recherche d'images dans les systèmes MRAG avec la technologie d'attributs intermodaux à l'aide de MLLM.
Une nouvelle perspective sur l’audit de la provenance des données.
Limitations:
L'estimation des attributs basée sur l'optimisation d'ordre zéro peut être coûteuse en termes de calcul car elle nécessite un échantillonnage de perturbations à grande échelle.
Il existe un risque de perte d'informations lors de la conversion d'image en texte à l'aide de MLLM.
La précision et l’efficacité du SMA peuvent varier en fonction de l’architecture spécifique du système RAG/MRAG et des caractéristiques des données.
Des évaluations supplémentaires des applications et des performances des systèmes réels sont nécessaires.
👍