Cet article présente une nouvelle méthode permettant d'aligner la sortie générée sur des sujets arbitraires en utilisant des autoencodeurs clairsemés (SAE) appliqués aux couches d'un modèle linguistique à grande échelle (LLM). Sur la base d'une étude précédente montrant que les neurones SAE correspondent à des concepts interprétables, nous 1) évaluons chaque neurone SAE en fonction de sa similarité sémantique avec le texte cible de l'alignement, et 2) modifions la sortie au niveau de la couche SAE en mettant l'accent sur les neurones pertinents pour le sujet. Nous menons des expériences à l'aide de divers ensembles de données thématiques publics tels que les avis sur Amazon, la médecine et la flatterie, ainsi que de combinaisons LLM et SAE open source telles que GPT2 et Gemma. Les expériences d'alignement sur des messages médicaux montrent des avantages tels qu'une amélioration de l'acceptation linguistique moyenne (0,25 contre 0,5) par rapport au réglage fin, une réduction du temps d'apprentissage pour divers sujets (333,6 secondes contre 62 secondes) et un temps d'inférence acceptable (+0,00092 seconde/jeton) pour de nombreuses applications. Le code source est disponible à github.com/IBM/sae-steering에서.