기존의 이론적 마음(Theory of Mind, ToM) 벤치마크는 Sally-Anne 테스트의 변형에 의존하여 ToM에 대한 매우 제한적인 관점만을 제공하고 인간의 사회적 상호작용의 복잡성을 간과합니다. 본 논문에서는 사회적 상호작용과 공간 역학이 풍부한 환경에서 ToM 능력을 테스트하도록 특별히 설계된 새로운 벤치마크인 ToM-SSI를 제안합니다. 기존의 ToM 벤치마크가 텍스트 전용 또는 이원적 상호작용으로 제한되는 반면, ToM-SSI는 다중 모달이며 상호 작용하고 상황에 맞는 환경에서 이동하는 최대 네 명의 에이전트의 그룹 상호 작용을 포함합니다. 이러한 독특한 설계를 통해 혼합된 협력적-방해적 설정과 여러 에이전트의 정신 상태에 대한 병렬 추론을 처음으로 연구하여 기존 벤치마크보다 더 넓은 범위의 사회적 인식을 포착할 수 있습니다. 평가 결과, 현재 모델의 성능은 특히 이러한 새로운 작업에서 여전히 심각하게 제한되어 있으며 향후 연구를 위한 중요한 간극을 강조합니다.