Cet article aborde le problème de la rétention de connaissances et de compétences dangereuses par les modèles de langage malgré un réglage fin sécurisé, ce qui entraîne des risques d'utilisation abusive et de désalignement. Nous évaluons systématiquement les éléments clés d'un désapprentissage irréversible, soulignant que les méthodes de désapprentissage existantes sont facilement réversibles. Nous évaluons les composants des méthodes de désapprentissage existantes et nouvelles afin d'identifier les éléments clés d'un désapprentissage irréversible, et introduisons la technique du « masquage de perturbation », qui autorise les mises à jour de poids uniquement lorsque le gradient de désapprentissage et le gradient maintenu ont le même signe, garantissant ainsi que toutes les mises à jour sont non destructives. Nous vérifions également la nécessité de la régularisation du gradient de désapprentissage et l'utilité du méta-apprentissage, et combinons ces connaissances pour présenter MUDMAN (méta-désapprentissage, masquage de perturbation et régularisation). MUDMAN s'est avéré efficace pour prévenir la récupération de caractéristiques dangereuses et présente une amélioration de 40 % par rapport à la méthode TAR de pointe précédente, suggérant un nouvel état de l'art pour un désapprentissage robuste.