StorySimは、大規模言語モデル(LLM)の理論的心(ToM)と世界モデリング(WM)の能力を評価するためにストーリーを人工的に生成するプログラム可能なフレームワークです。既存のベンチマークの事前トレーニングデータ汚染の問題を解決するために、StorySimは高い制御力を持つストーリーボードに基づいて新しい構成的なストーリープロンプトを生成し、登場人物の視点と出来事を正確に操作できます。このフレームワークを使用して、精神状態を追跡してモデル化する能力を制御するWMタスクとともに、1次および2次ToMタスクを設計しました。最先端のLLMの実験の結果、ほとんどのモデルはToM作業よりWM作業で優れた性能を示し、無生物よりも人間との推論でより良い性能を示す傾向がありました。さらに、最近のバイアスや物語の初期の出来事への過度の依存など、ヒューリスティックな行動の証拠が見つかりました。データを生成および評価するためのすべてのコードは公に提供されています。