既存の理論的心(Theory of Mind、ToM)ベンチマークは、Sally-Anneテストのバリエーションに依存して、ToMの非常に制限的な視点のみを提供し、人間の社会的相互作用の複雑さを見落とします。本論文では、社会的相互作用と空間力学が豊富な環境でToM能力をテストするために特別に設計された新しいベンチマークであるToM-SSIを提案します。既存のToMベンチマークはテキストのみまたは二元的な相互作用に制限されていますが、ToM-SSIはマルチモーダルであり、対話し、状況に応じた環境で移動する最大4人のエージェントのグループ相互作用を含みます。このユニークな設計により、混在した協力的 - 妨害的な設定と複数のエージェントの精神状態の並列推論を初めて検討し、既存のベンチマークよりも広い範囲の社会的認識を捉えることができます。評価の結果、現在のモデルのパフォーマンスは特にこれらの新しい作業において依然として厳しく制限されており、今後の研究のための重要なギャップを強調しています。