EgoToM이라는 새로운 비디오 질의응답 벤치마크를 소개합니다. 이는 이론적 마음(ToM) 평가를 자기중심 영역으로 확장합니다. 인과적 ToM 모델을 사용하여 Ego4D 데이터셋에 대한 다중 선택 비디오 QA 인스턴스를 생성하여 카메라 착용자의 목표, 신념 및 다음 행동을 예측하는 능력을 벤치마킹합니다. 이 세 가지 상호 연결된 추론 문제에 대한 인간과 최첨단 다중 모달 대규모 언어 모델(MLLM)의 성능을 연구합니다. 평가 결과, MLLM은 자기중심 비디오에서 목표를 추론하는 데 인간 수준의 정확도에 근접함을 보여줍니다. 그러나 MLLM(1,000억 개가 넘는 매개변수를 사용하여 테스트한 가장 큰 MLLM 포함)은 카메라 착용자의 현재 신념 상태와 보이지 않는 비디오 미래와 가장 일치하는 미래 행동을 추론하는 데 인간의 성능에 미치지 못합니다. 이러한 결과는 사용자의 내부 정신 상태에 대한 합리적인 모델을 갖춘 중요한 종류의 자기중심 디지털 어시스턴트의 미래 설계에 영향을 미칠 것으로 생각합니다.