Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Attaques et défenses contre l'empreinte digitale LLM

Created by
  • Haebom

Auteur

Kevin Kurian, Ethan Holland, Sean Oesch

Contour

Cet article aborde les risques importants pour la confidentialité et la sécurité des attaques par empreinte digitale sur les grands modèles de langage (LLM), de plus en plus utilisés dans les environnements sensibles. Nous présentons des recherches sur l'empreinte digitale des LLM d'un point de vue offensif et défensif. Une méthodologie offensive, qui optimise automatiquement la sélection des requêtes par apprentissage par renforcement, permet d'obtenir une meilleure précision d'empreinte digitale avec seulement trois requêtes qu'en sélectionnant aléatoirement trois requêtes dans le même pool. L'approche défensive, qui utilise un filtrage de sortie préservant la sémantique via des LLM auxiliaires, masque l'identité du modèle tout en préservant l'intégrité sémantique. Elle réduit la précision d'empreinte digitale pour les modèles testés tout en préservant la qualité du résultat. Ces contributions démontrent le potentiel d'amélioration des fonctionnalités des outils d'empreinte digitale tout en proposant des stratégies pratiques d'atténuation des attaques par empreinte digitale.

Takeaways, Limitations

Takeaways:
Présentation d'une méthodologie efficace d'attaque par empreinte digitale basée sur l'apprentissage par renforcement (haute précision obtenue avec seulement 3 requêtes).
Une stratégie de défense efficace est présentée grâce à un filtrage de sortie qui préserve le sens.
Contributions pratiques à l’amélioration des technologies d’attaque et de défense par empreintes digitales.
Limitations:
L’efficacité de la stratégie de défense proposée peut être limitée à des modèles et des pools de requêtes spécifiques.
Une évaluation complète des différentes stratégies offensives et défensives peut faire défaut.
Des recherches supplémentaires sont nécessaires sur les performances et la généralisabilité dans des environnements réels.
👍