Dans cet article, nous présentons la compression pilotée par activation (ASC), une nouvelle méthode permettant de résoudre le problème des chaînes de pensée excessives (CdP) dans le processus d'inférence des modèles linguistiques à grande échelle (MLH). L'ASC compresse le processus d'inférence en extrayant et en injectant un « vecteur de pilotage » en exploitant la différence entre l'inférence mathématique concise et l'inférence verbeuse basée sur l'anglais dans l'espace d'activation du modèle. Cette technique modifie directement la représentation cachée au moment de l'inférence, sans réentraînement, pour réduire la longueur de la CdP. Grâce à une analyse théorique utilisant des contraintes à divergence KL, nous montrons qu'elle ajuste la force de pilotage et permet une réduction de la longueur de la CdP allant jusqu'à 67,43 % sur les jeux de données MATH500 et GSM8K, tout en maintenant la précision. En particulier, elle atteint une accélération moyenne de 2,73x sur le modèle 8B, ce qui suggère qu'il s'agit d'un outil pratique et efficace pour les déploiements de LLM avec capacités d'inférence dans des environnements sensibles à la latence et aux coûts.