Cet article propose l'injection de sécurité de rang un (ROSI), une nouvelle méthode pour améliorer la sécurité des modèles de langage à grande échelle (LLM). ROSI est une méthode simple de modification de poids de rang un qui oriente en permanence les activations du modèle vers le sous-espace des paramètres de rejet, sans nécessiter de réglage fin. Elle calcule les directives de sécurité requises à partir d'un petit ensemble de paires de directives nuisibles et inoffensives et les applique à toutes les matrices d'écriture de flux résiduels. L'évaluation sur Llama Guard 3 montre que ROSI améliore systématiquement le taux de rejet de sécurité tout en préservant l'utilité du modèle. De plus, nous démontrons qu'elle peut amplifier et réorganiser les directives de sécurité potentielles dans les modèles « non censurés », démontrant ainsi son utilité comme procédure de sécurité efficace de dernière étape. Par conséquent, le pilotage de poids interprétable et orienté vers un objectif constitue un mécanisme peu coûteux et puissant pour améliorer la sécurité des LLM, complétant ainsi les paradigmes de réglage fin plus gourmands en ressources.