この論文は、大規模言語モデル(LLM)が内部世界モデルを構築および操作するのか、それとも出力層トークン確率で表される統計的関連性にのみ依存するのかを調べます。研究者らは、TikZでレンダリングされた刺激を使用してプーリーシステム問題のLLMをテストするために、人間の精神モデル研究の認知科学方法論を適用しました。研究1では、LLMが機械的利点(MA)を推定できるかどうかを調べた。最先端モデルは偶然よりわずかに高いが有意に行われ、その推定値は実際のMAと有意に相関関係があった。滑車数とモデル推定値との間の有意な相関関係は、モデルが正確な値を導出するために滑車システムをシミュレートすることなく滑車計算ヒューリスティックを使用したことを示唆している。研究2では、MA推定に重要なグローバルな特徴をLLMが表現するかどうかを調べてこれをテストした。モデルは、機能的に接続されたプーリーシステムを、コンポーネントがランダムに配置された偽システムと評価しました。明示的な手がかりなしに、モデルは機能システムがF1 = 0.8でより大きなMAを持っていることを識別し、LLMが混乱しているシステムと機能システムを区別するのに十分なシステムを表現できることを示唆しています。研究3では、LLMに機能的システムを接続したが、重量に力を伝達しない一致するシステムと比較するように要請し、これに基づいた。 LLMはF1 = 0.46で機能システムを識別し、ランダムな推測を示唆しています。一般化できる限り、これらの結果は、LLMがプーリー数とMAとの間の統計的関連性を利用するのに十分な内部世界モデルを操作し(研究1)、システムコンポーネントの空間関係をおおよそ表現できることを示唆している(研究2)。しかし、彼らは微妙な構造的接続性を推論する能力を欠いているかもしれません(研究3)。結論として、人工知能システムの世界モデリング能力を評価するための認知科学的方法の有用性を提唱する。