본 논문은 시각 언어 모델(VLMs)의 Theory of Mind(ToM) 능력을 종합적으로 평가하기 위한 새로운 프레임워크를 제시합니다. 30개의 이미지로 구성된 벤치마크 데이터셋을 구축하고, 크기가 다른 네 개의 VLMs(GPT-4, GPT-4o-mini 등)의 성능을 평가했습니다. 실험 결과, GPT-4가 가장 우수한 성능을 보였으며, GPT-4o-mini가 비슷한 수준의 성능을 보였습니다. VLMs는 특히 괴롭힘이나 부정행위와 같은 복잡한 상황에서 의도를 정확하게 추론하는 데 어려움을 겪는다는 것을 발견했습니다. 또한, 작은 모델이 잘못된 시각적 단서에 의존하더라도 정확한 의도를 추론하는 경우가 있다는 것을 확인했습니다.