Les nouveaux modèles d'IA génèrent un texte d'inférence étape par étape avant de générer une réponse. Ce texte semble révéler le processus de calcul du modèle et est de plus en plus utilisé pour la transparence et l'interprétabilité. Cependant, il n'est pas certain que la manière dont les humains interprètent ce texte corresponde au processus de calcul réel du modèle. Cet article examine une condition nécessaire à cette réponse : la capacité des humains à discerner quelles étapes du texte d'inférence influencent causalement les étapes ultérieures. Nous avons évalué la performance humaine en formulant des questions basées sur des mesures contrefactuelles et avons constaté des différences significatives. La précision des participants n'était que de 29 %, légèrement supérieure au hasard (25 %), et même en évaluant les votes majoritaires sur des questions à fort consensus, la précision n'était que de 42 %. Ces résultats révèlent une différence fondamentale entre la manière dont les humains interprètent le texte d'inférence et la manière dont les modèles l'utilisent, ce qui soulève des questions sur son utilité comme simple outil d'interprétabilité. Nous soutenons que le texte d'inférence ne doit pas être tenu pour acquis, mais plutôt traité comme un artefact digne d'être étudié, et que la compréhension des manières inhumaines dont ces modèles utilisent le langage est une orientation de recherche cruciale.