本論文は、大規模言語モデル(LLM)ベースのエージェントの戦略的推論能力、特にゲーム理論的状況における能力を評価する。 3つのエージェント設計(単純ゲーム理論モデル、LLM単独エージェントモデル、既存エージェントフレームワークに統合されたLLM)を推測ゲームを通じて評価し、人間参加者と比較分析した。難読化されたゲームシナリオを通じて訓練分布を越える一般化能力も評価した。 25のエージェント構成にわたって2000を超える推論サンプルを分析し、人間の認知構造を模倣した設計は、LLMエージェントのヒト戦略的行動との一致を改善することができることを示した。しかし、エージェント設計の複雑さと人間との類似性との関係は非線形であり、基底LLMの性能と単純な構造増強の限界に大きく依存することを示唆している。