Les benchmarks existants en théorie de l'esprit (ToM) s'appuient sur des variantes du test de Sally-Anne, offrant une perspective très limitée sur la ToM et négligeant la complexité des interactions sociales humaines. Dans cet article, nous proposons un nouveau benchmark, ToM-SSI, spécialement conçu pour tester les capacités de la ToM dans des environnements riches en interactions sociales et en dynamiques spatiales. Alors que les benchmarks ToM existants se limitent aux interactions textuelles ou dyadiques, ToM-SSI est multimodal et englobe les interactions de groupe jusqu'à quatre agents évoluant dans un environnement contextuel et interactif. Cette conception unique nous permet d'explorer pour la première fois un contexte mixte de coopération et d'interférence et une inférence parallèle sur les états mentaux de plusieurs agents, capturant ainsi un spectre de cognition sociale plus large que les benchmarks existants. Notre évaluation révèle que les performances du modèle actuel restent très limitées, notamment sur ces nouvelles tâches, ce qui met en évidence d'importantes lacunes pour les recherches futures.