Cet article aborde le problème suivant : les modèles de langage à inférence pondérée ouverte génèrent des processus de réflexion longs (CdT) avant de générer la réponse finale, ce qui introduit des risques d’alignement supplémentaires et des gains de performance, et du contenu nuisible apparaît à la fois dans les CdT et dans la sortie finale. Nous étudions si les CdT peuvent être utilisés pour prédire les erreurs d’alignement dans la réponse finale. Nous évaluons plusieurs méthodes de surveillance (humaines, modèles de langage à grande échelle hautes performances et classificateurs de texte) utilisant du texte ou des activations de CdT, et constatons que les sondes linéaires simples entraînées sur les activations de CdT surpassent significativement les méthodes textuelles pour prédire la sécurité de la réponse finale. Alors que les textes de CdT sont souvent inexacts et peuvent induire en erreur les humains et les classificateurs, les variables latentes du modèle (c’est-à-dire les activations de CdT) fournissent un signal prédictif plus fiable. Les sondes effectuent des prédictions précises avant la fin de l’inférence et atteignent des performances robustes même lorsqu’elles sont appliquées aux premiers segments de CdT. Ces résultats sont généralisables à toutes les tailles de modèles, familles et référentiels de sécurité, suggérant que des sondes légères peuvent permettre une surveillance de la sécurité en temps réel et une intervention précoce pendant la génération.