Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Désapprentissage robuste du LLM avec MUDMAN : méta-désapprentissage avec masquage et normalisation des perturbations

Created by
  • Haebom

Auteur

Filip Sondej, Yushi Yang, Miko{\l}aj Kniejski, Marcel Windys

Contour

Cet article aborde le problème de la rétention de connaissances et de compétences dangereuses par les modèles de langage malgré un réglage fin sécurisé, ce qui entraîne des risques d'utilisation abusive et de désalignement. Nous évaluons systématiquement les éléments clés d'un désapprentissage irréversible, soulignant que les méthodes de désapprentissage existantes sont facilement réversibles. Nous évaluons les composants des méthodes de désapprentissage existantes et nouvelles afin d'identifier les éléments clés d'un désapprentissage irréversible, et introduisons la technique du « masquage de perturbation », qui autorise les mises à jour de poids uniquement lorsque le gradient de désapprentissage et le gradient maintenu ont le même signe, garantissant ainsi que toutes les mises à jour sont non destructives. Nous vérifions également la nécessité de la régularisation du gradient de désapprentissage et l'utilité du méta-apprentissage, et combinons ces connaissances pour présenter MUDMAN (méta-désapprentissage, masquage de perturbation et régularisation). MUDMAN s'est avéré efficace pour prévenir la récupération de caractéristiques dangereuses et présente une amélioration de 40 % par rapport à la méthode TAR de pointe précédente, suggérant un nouvel état de l'art pour un désapprentissage robuste.

Takeaways, Limitations

Takeaways:
Nous révélons les éléments clés du désapprentissage irréversible : le masquage des interférences, la régularisation du gradient et le méta-apprentissage.
Nous présentons une nouvelle méthode de désapprentissage puissante appelée MUDMAN et améliorons ses performances par rapport aux méthodes existantes.
Développement de nouvelles technologies contribuant à améliorer la sécurité des modèles linguistiques.
Limitations:
L’efficacité de MUDMAN n’a été vérifiée que pour des ensembles de données et des modèles spécifiques, des recherches supplémentaires sur la généralisabilité sont donc nécessaires.
Une validation supplémentaire est nécessaire pour déterminer si les facteurs de risque complexes du monde réel peuvent être complètement éliminés.
Des analyses plus approfondies sont nécessaires sur les aspects pratiques tels que le coût de calcul et les besoins en mémoire.
👍