Cet article présente des recherches sur la vulnérabilité d'un modèle d'inférence générant des jetons de chaîne de pensée (CoT) aux attaques de jailbreak. Contrairement aux modèles de langage existants, qui prennent des décisions de rejet à la frontière entre l'invite et la réponse, nous avons constaté que le modèle DeepSeek-R1-Distill-Llama-8B prend des décisions de rejet au cours du processus de génération de la CoT. Nous avons identifié une direction linéaire (direction de l'attention) dans l'espace d'activation lors de la génération des jetons de CoT, qui prédit si le modèle rejettera ou acceptera. Cette direction correspond à un schéma d'inférence délibérée dans le texte généré. Supprimer cette direction des activations du modèle augmente l'acceptation néfaste, permettant ainsi le jailbreak du modèle. Nous démontrons également que le résultat final peut être contrôlé en manipulant uniquement les activations des jetons de CoT, et que l'intégration de cette direction dans une attaque par invite améliore le taux de réussite. Par conséquent, nos résultats suggèrent que la chaîne de pensée elle-même représente une nouvelle cible prometteuse pour la manipulation antagoniste des modèles d'inférence.