Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Created by
  • Haebom
Category
Empty

저자

Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li

개요

본 논문은 현대의 시각-언어 모델(VLMs)이 '신체화된 인지'의 징후를 보이는지 평가하기 위해 개발된 ENACT 벤치마크를 소개합니다. ENACT는 시각 질의 응답(VQA) 형식을 사용하여 자기중심적 상호작용으로부터의 세계 모델링을 평가합니다. 이는 부분 관측 마르코프 결정 과정(POMDP)으로 구성되며, 장면 그래프 변화를 행동으로 간주합니다. ENACT는 정방향 세계 모델링(행동에 따라 섞인 관측 재정렬) 및 역방향 세계 모델링(관측에 따라 섞인 행동 재정렬)의 두 가지 상호 보완적인 시퀀스 재정렬 작업으로 구성됩니다. ENACT는 로봇 시뮬레이션(BEHAVIOR)에서 QA 쌍을 합성하고, 긴 호라이즌 홈 스케일 활동을 포괄하는 8,972개의 QA 쌍에 대해 모델을 평가합니다.

시사점, 한계점

시사점:
신체화된 인지에 필요한 핵심 능력을 암묵적으로 요구합니다: 어포던스 인식, 행동-결과 추론, 신체화된 인식, 부분 관측 자기중심적 입력으로부터의 상호작용적 장기 기억.
최첨단 VLM과 인간 사이의 성능 격차가 상호작용 호라이즌이 길어짐에 따라 커지는 것을 발견했습니다.
모델은 역방향 작업에서 일관적으로 더 나은 성능을 보였습니다.
오른손잡이 선호와 같은 인간 중심적 편향을 보였고, 카메라 설정 변경에 민감하게 반응했습니다.
한계점:
모델의 성능은 상호작용 호라이즌에 따라 달라집니다.
모델은 인간 중심적 편향을 보입니다.
카메라 설정 변경에 따라 성능이 저하됩니다.
👍