Cet article souligne que les modèles de langage à grande échelle (LLM) alignés de manière sécurisée sont vulnérables aux attaques de réglage fin nuisibles. Une petite quantité de données nuisibles mélangées à l'ensemble de données de réglage fin peut rompre l'alignement sécurisé du LLM. Nous démontrons que les défenses existantes sont inefficaces sous certains hyperparamètres d'apprentissage (par exemple, des taux d'apprentissage élevés ou un grand nombre d'époques d'apprentissage). Par conséquent, nous proposons Antidote, une solution post-réglage fin indépendante des hyperparamètres d'apprentissage utilisés pendant la phase de réglage fin. Antidote repose sur le principe de la suppression des paramètres nuisibles pour restaurer les modèles nuisibles suite à un comportement nuisible. Expérimentalement, nous démontrons qu'Antidote réduit les scores nuisibles tout en préservant la précision des tâches en aval grâce à une étape d'élagage unique qui supprime les pondérations nuisibles responsables de la génération de contenu nuisible. Le code est disponible sur GitHub.