Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Un examen plus approfondi du désapprentissage automatique pour les grands modèles linguistiques

Created by
  • Haebom

Auteur

Xiaojian Yuan, Tianyu Pang, Chao Du, Kejiang Chen, Weiming Zhang, Min Lin

Contour

Cet article aborde plusieurs défis liés au désapprentissage automatique des modèles linguistiques à grande échelle (MLH) et propose une approche améliorée. Étant donné que les LH peuvent soulever des problèmes juridiques et de confidentialité en raison de leur capacité à mémoriser des contenus sensibles ou protégés par des droits d'auteur, le désapprentissage automatique, qui supprime des contenus spécifiques tout en maintenant les performances globales, suscite un intérêt croissant. Pour remédier aux problèmes d'évaluation inadéquats du désapprentissage automatique actuel, nous proposons trois indicateurs supplémentaires : la diversité des jetons, la sémantique des phrases et l'exactitude factuelle. De plus, nous classons les méthodes de désapprentissage en méthodes non ciblées et ciblées et analysons leurs défis respectifs (par exemple, le comportement imprévisible du désapprentissage non ciblé et la régularisation insuffisante du désapprentissage ciblé). Pour atténuer ces défis, nous proposons d'utiliser l'objectif de maximisation de l'entropie (ME) pour le désapprentissage non ciblé et la perte de préservation des réponses (AP) pour le désapprentissage ciblé comme régularisation. Les résultats expérimentaux de trois scénarios – désapprentissage fictif, désapprentissage continu et désapprentissage réel – démontrent l’efficacité de l’approche proposée.

Takeaways, Limitations

Takeaways:
Présentation de nouvelles mesures (diversité des jetons, sens des phrases et exactitude factuelle) pour évaluer l'apprentissage automatique dans le LLM.
Preuve de l'efficacité de l'objectif de maximisation de l'entropie (ME) pour le désapprentissage non ciblé et de la régularisation des pertes préservant les réponses (AP) pour le désapprentissage ciblé.
Validation expérimentale approfondie utilisant des scénarios de désapprentissage fictifs, persistants et réels.
Méthodes pratiques pour supprimer les informations sensibles du LLM
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
D'autres expériences sont nécessaires sur diverses architectures et ensembles de données LLM.
Une évaluation des performances dans des scénarios complexes du monde réel est nécessaire.
Des recherches supplémentaires sont nécessaires pour traiter les effets secondaires potentiels non intentionnels qui peuvent survenir lors du désapprentissage mécanique.
👍