Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos

Created by
  • Haebom

저자

Yuxuan Li, Vijay Veerabadran, Michael L. Iuzzolino, Brett D. Roads, Asli Celikyilmaz, Karl Ridgeway

개요

EgoToM이라는 새로운 비디오 질의응답 벤치마크를 소개합니다. 이는 이론적 마음(ToM) 평가를 자기중심 영역으로 확장합니다. 인과적 ToM 모델을 사용하여 Ego4D 데이터셋에 대한 다중 선택 비디오 QA 인스턴스를 생성하여 카메라 착용자의 목표, 신념 및 다음 행동을 예측하는 능력을 벤치마킹합니다. 이 세 가지 상호 연결된 추론 문제에 대한 인간과 최첨단 다중 모달 대규모 언어 모델(MLLM)의 성능을 연구합니다. 평가 결과, MLLM은 자기중심 비디오에서 목표를 추론하는 데 인간 수준의 정확도에 근접함을 보여줍니다. 그러나 MLLM(1,000억 개가 넘는 매개변수를 사용하여 테스트한 가장 큰 MLLM 포함)은 카메라 착용자의 현재 신념 상태와 보이지 않는 비디오 미래와 가장 일치하는 미래 행동을 추론하는 데 인간의 성능에 미치지 못합니다. 이러한 결과는 사용자의 내부 정신 상태에 대한 합리적인 모델을 갖춘 중요한 종류의 자기중심 디지털 어시스턴트의 미래 설계에 영향을 미칠 것으로 생각합니다.

시사점, 한계점

시사점: 자기중심 비디오에서 목표 추론에 대한 MLLM의 인간 수준 성능 달성. 자기중심 디지털 어시스턴트 설계에 대한 시사점 제시.
한계점: MLLM이 카메라 착용자의 현재 신념 상태 및 미래 행동 추론에 있어 인간 수준 성능 미달. 대규모 매개변수를 가진 MLLM조차도 한계를 보임.
👍