Cet article présente une technique de sonde linéaire qui utilise les activations internes de modèles de langage à grande échelle (MLH) pour détecter la tromperie dans les réponses générées. Des expériences avec les modèles Llama et Qwen (avec des paramètres allant de 1,5B à 14B) démontrent que la technique de sonde linéaire distingue les réponses trompeuses des réponses non trompeuses avec une précision de 70 à 80 % pour les modèles à 7B paramètres ou plus, et de plus de 90 % pour le modèle DeepSeek-r1 affiné. En particulier, nous avons observé une tendance à une plus grande précision de détection de la tromperie avec des modèles plus grands et des modèles dotés de capacités d'inférence améliorées, tels que DeepSeek-r1. L'analyse couche par couche a révélé un schéma en trois étapes : la précision de détection était faible dans les premières couches, maximale dans les couches intermédiaires, et diminuait légèrement vers les couches ultérieures. De plus, nous avons identifié plusieurs directions linéaires codant la tromperie par projection itérative dans l'espace nul.