Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Language Models Might Not Understand You: Evaluating Theory of Mind via Story Prompting

Created by
  • Haebom

作者

Nathaniel Getachew, Abulhair Saparov

概要

StorySimは、大規模言語モデル(LLM)の理論的心(ToM)と世界モデリング(WM)の能力を評価するためにストーリーを人工的に生成するプログラム可能なフレームワークです。既存のベンチマークの事前トレーニングデータ汚染の問題を解決するために、StorySimは高い制御力を持つストーリーボードに基づいて新しい構成的なストーリープロンプトを生成し、登場人物の視点と出来事を正確に操作できます。このフレームワークを使用して、精神状態を追跡してモデル化する能力を制御するWMタスクとともに、1次および2次ToMタスクを設計しました。最先端のLLMの実験の結果、ほとんどのモデルはToM作業よりWM作業で優れた性能を示し、無生物よりも人間との推論でより良い性能を示す傾向がありました。さらに、最近のバイアスや物語の初期の出来事への過度の依存など、ヒューリスティックな行動の証拠が見つかりました。データを生成および評価するためのすべてのコードは公に提供されています。

Takeaways、Limitations

Takeaways:
LLMのToMとWMの能力を評価するための新しいフレームワークであるStorySimを提示します。
既存のベンチマークのLimitationsである事前訓練データ汚染のトラブルシューティング。
ストーリーボードによる精密なストーリー操作と様々なToMとWMの作業設計が可能。
LLMのToMおよびWM能力に関する新しい洞察を提供する(WM> ToM、ヒト推論>無生物推論、ヒューリスティック行動の発見)。
すべてのコード開示による再現性と拡張性の確保
Limitations:
StorySimが生成するストーリーの一般化の可能性に関するさらなる研究が必要です。
様々なタイプのLLMのための追加の実験の必要性。
ヒューリスティック行動の根本原因のさらなる分析が必要
👍