Este artículo destaca que los modelos de lenguaje a gran escala (LLM) alineados de forma segura son vulnerables a ataques de ajuste fino perjudiciales. Una pequeña cantidad de datos perjudiciales mezclados con el conjunto de datos de ajuste fino puede romper la alineación segura del LLM. Demostramos que las defensas existentes son ineficaces bajo ciertos hiperparámetros de entrenamiento (p. ej., altas tasas de aprendizaje o un gran número de épocas de entrenamiento). Por lo tanto, proponemos Antidote, una solución posterior al ajuste fino que es independiente de los hiperparámetros de entrenamiento utilizados durante la fase de ajuste fino. Antidote se basa en el principio de eliminar parámetros perjudiciales para recuperar modelos dañinos de comportamientos perjudiciales. Experimentalmente, demostramos que Antidote reduce las puntuaciones perjudiciales a la vez que mantiene la precisión de las tareas posteriores mediante la introducción de un paso de poda único que elimina las ponderaciones perjudiciales responsables de generar contenido dañino. El código está disponible en GitHub.