Cet article présente une nouvelle méthode pour améliorer la sécurité des modèles de langage à grande échelle (LLM). Les méthodes d'apprentissage de la sécurité existantes reposent souvent sur un réglage fin, obligeant le modèle à rejeter les réponses aux requêtes malveillantes, ce qui entraîne souvent une baisse des performances. Dans cet article, nous proposons une méthode permettant d'ajouter un jeton spécial appelé « jeton d'alerte » au vocabulaire du modèle et d'entraîner le modèle à l'insérer dans les réponses lorsqu'un contenu malveillant est généré ou susceptible de l'être. Cette méthode permet au modèle d'apprendre explicitement le concept de nocivité tout en préservant son utilité, et offre la même robustesse que l'apprentissage antagoniste en évaluant chaque réponse générée. De plus, nous encapsulons le réglage de la sécurité à l'aide de modules LoRA, offrant une protection supplémentaire contre les attaques d'API de réglage fin.