본 논문은 대규모 언어 모델(LLM)의 Theory of Mind (ToM) 능력 평가에 대한 기존 연구들을 분석하고, 한계점을 지적하는 내용을 담고 있다. 기존 연구들은 ToM 과제를 수행하는 데 필요한 두 단계, 즉 1) ToM을 적용할지 여부 및 필요한 사고의 깊이(DoM) 결정, 그리고 2) DoM을 고려한 적절한 추론 적용 중, 주로 두 번째 단계에만 집중하고 있으며 이를 정적인 논리 문제로 다루는 경향이 있다고 주장한다. LLM 벤치마킹, ToM 추가 기능, ToM 탐색, ToM을 위한 형식 모델 등 다양한 AI 분야의 연구들을 검토하며 이러한 한계를 지적하고, 인지 과제에서 사용되는 동적인 환경에서 영감을 받은 ToM 능력 평가 개선 방안을 제시한다.