새로운 AI 모델들은 답을 생성하기 전에 단계별 추론 텍스트를 생성합니다. 이 텍스트는 모델의 계산 과정을 보여주는 것처럼 보이며, 투명성과 해석성을 위해 점점 더 많이 사용되고 있습니다. 그러나 인간이 이 텍스트를 이해하는 방식이 모델의 실제 계산 과정과 일치하는지는 불분명합니다. 본 논문에서는 추론 텍스트의 단계 중 어떤 것이 나중 단계에 인과적으로 영향을 미치는지 인간이 식별할 수 있는 능력이라는, 대응을 위한 필요 조건을 조사합니다. 반사실적 측정을 기반으로 질문을 구성하여 인간의 능력을 평가한 결과, 상당한 차이가 발견되었습니다. 참가자의 정확도는 29%에 불과하여 우연보다 약간 높았으며(25%), 의견 일치가 높은 질문에 대한 다수결을 평가하더라도 42%에 그쳤습니다. 이러한 결과는 인간이 추론 텍스트를 해석하는 방식과 모델이 추론 텍스트를 사용하는 방식 사이에 근본적인 차이가 있음을 보여주며, 단순한 해석성 도구로서의 유용성에 의문을 제기합니다. 추론 텍스트는 당연한 것으로 받아들여서는 안 되며 조사해야 할 인공물로 간주해야 하며, 이러한 모델이 언어를 사용하는 비인간적인 방식을 이해하는 것이 중요한 연구 방향이라고 주장합니다.