新しいAIモデルは、答えを生成する前に段階的推論テキストを生成します。このテキストはモデルの計算プロセスを示すように見え、透明性と解釈性のためにますます使用されています。しかし、人間がこのテキストを理解する方法がモデルの実際の計算プロセスと一致するかどうかは不明です。本論文では、推論テキストのステップのうちどれが後のステップに因果的に影響するかを人間が識別する能力であるという対応のための必要条件を調査します。反射実績測定に基づいて質問を構築し、人間の能力を評価した結果、かなりの違いが発見されました。参加者の精度はわずか29%で、偶然よりわずかに高く(25%)、意見一致の高い質問に対する多数決を評価しても42%にとどまりました。これらの結果は、人間が推論テキストを解釈する方法とモデルが推論テキストを使用する方法との間に根本的な違いがあることを示しており、単純な解析ツールとしての有用性に疑問を提起する。推論テキストは当然のこととして受け入れられてはならず、調査すべき人工物と見なすべきであり、これらのモデルが言語を使用する非人間的な方法を理解することが重要な研究方向であると主張します。