Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les attaques par jeton souple ne peuvent pas auditer de manière fiable le désapprentissage dans les grands modèles de langage

Created by
  • Haebom

Auteur

Haokun Chen, Sebastian Szyller, Weilin Xu, Nageen Himayat

Contour

Cet article présente une évaluation de l'efficacité des attaques par jetons logiciels (STA) utilisées dans le désapprentissage automatique de modèles de langage à grande échelle (LLM). Si des recherches antérieures ont démontré que les STA peuvent extraire avec succès des informations non apprises, cette étude démontre que, dans un environnement d'audit robuste, les STA peuvent extraire n'importe quelle information des LLM, qu'elle soit incluse dans l'algorithme de désapprentissage ou dans les données d'entraînement d'origine. À l'aide de benchmarks tels que Who Is Harry Potter? et TOFU, nous démontrons cela, révélant que même un petit nombre de jetons logiciels (1 à 10) peut divulguer une chaîne arbitraire de plus de 400 caractères. Par conséquent, nous soulignons la nécessité d'une approche prudente pour déployer efficacement les STA dans les audits de désapprentissage.

Takeaways, Limitations_

Takeaways: En présentant clairement les limites et les risques de l'analyse STA lors de l'audit des cours de désapprentissage de LLM, nous soulignons la nécessité de développer des techniques de désapprentissage plus sûres et plus efficaces. En démontrant les vulnérabilités de l'analyse STA, nous proposons des pistes de recherche pour la sécurité des données et la protection de la vie privée dans les cours de LLM.
Limitations: Cette étude présente des résultats limités à un environnement d'audit et de référence spécifique. Des recherches supplémentaires sont nécessaires sur diverses architectures LLM, algorithmes de désapprentissage et ensembles de données réels. L'analyse des techniques d'attaque autres que STA fait défaut.
👍