Los nuevos modelos de IA generan un texto de inferencia paso a paso antes de generar una respuesta. Este texto parece revelar el proceso computacional del modelo y se utiliza cada vez más para lograr transparencia e interpretabilidad. Sin embargo, no está claro si la forma en que los humanos interpretan este texto coincide con el proceso computacional real del modelo. Este artículo investiga una condición necesaria para esta respuesta: la capacidad de los humanos para discernir qué pasos del texto de inferencia influyen causalmente en los pasos posteriores. Evaluamos el desempeño humano formulando preguntas basadas en medidas contrafácticas y encontramos diferencias significativas. La precisión de los participantes fue de tan solo el 29 %, ligeramente superior a la del azar (25 %), e incluso al evaluar los votos mayoritarios en preguntas con alto consenso, la precisión fue de tan solo el 42 %. Estos resultados revelan una diferencia fundamental entre cómo los humanos interpretan el texto de inferencia y cómo lo utilizan los modelos, lo que plantea dudas sobre su utilidad como herramienta de interpretación simple. Argumentamos que el texto de inferencia no debe darse por sentado, sino tratarse como un artefacto digno de investigación, y que comprender las formas inhumanas en que estos modelos utilizan el lenguaje es una línea de investigación crucial.