본 논문은 대부분의 기존 사고 이론(Theory of Mind, ToM) 벤치마크가 LLMs(대규모 언어 모델)의 새로운 파트너에 대한 적응 능력을 직접적으로 평가하지 못하기 때문에 잘못되었다는 주장을 제기합니다. 기존 벤치마크는 인간의 사고 이론 평가 방식에서 영감을 얻어 AI 에이전트에게 인간과 같은 특성을 부여하려는 오류를 범합니다. 인간은 특정 상황에 대한 다양한 질문에 대해 일관된 추론 과정을 거치지만, 현재의 LLMs는 그렇지 않습니다. 기존 벤치마크는 주로 타인의 행동을 예측하는 능력인 '문자적 사고 이론(literal theory of mind)'만 측정하는데, 이는 에이전트가 자기 일관적인 추론을 보일 때만 유용합니다. 따라서 본 논문은 파트너의 행동에 대한 합리적인 반응에 따라 상황 내에서 에이전트에 적응하는 능력인 '기능적 사고 이론(functional theory of mind)' 개념을 제시합니다. 많은 오픈소스 LLMs는 강력한 문자적 사고 이론 능력을 보이지만, 매우 간단한 파트너 정책에서도 기능적 사고 이론에는 어려움을 겪는다는 것을 발견했습니다. 즉, 강력한 문자적 사고 이론 성능은 강력한 기능적 사고 이론 성능을 의미하지 않으며, 그 반대도 마찬가지입니다. 특히 파트너와의 장기적인 상호 작용에서 기능적 사고 이론을 달성하는 것은 LLM 사고 이론 평가에서 중요한 과제입니다.