ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
Created by
Haebom
Category
Empty
저자
Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li
개요
본 논문은 현대의 시각-언어 모델(VLMs)이 '신체화된 인지'의 징후를 보이는지 평가하기 위해 개발된 ENACT 벤치마크를 소개합니다. ENACT는 시각 질의 응답(VQA) 형식을 사용하여 자기중심적 상호작용으로부터의 세계 모델링을 평가합니다. 이는 부분 관측 마르코프 결정 과정(POMDP)으로 구성되며, 장면 그래프 변화를 행동으로 간주합니다. ENACT는 정방향 세계 모델링(행동에 따라 섞인 관측 재정렬) 및 역방향 세계 모델링(관측에 따라 섞인 행동 재정렬)의 두 가지 상호 보완적인 시퀀스 재정렬 작업으로 구성됩니다. ENACT는 로봇 시뮬레이션(BEHAVIOR)에서 QA 쌍을 합성하고, 긴 호라이즌 홈 스케일 활동을 포괄하는 8,972개의 QA 쌍에 대해 모델을 평가합니다.
시사점, 한계점
•
시사점:
◦
신체화된 인지에 필요한 핵심 능력을 암묵적으로 요구합니다: 어포던스 인식, 행동-결과 추론, 신체화된 인식, 부분 관측 자기중심적 입력으로부터의 상호작용적 장기 기억.
◦
최첨단 VLM과 인간 사이의 성능 격차가 상호작용 호라이즌이 길어짐에 따라 커지는 것을 발견했습니다.
◦
모델은 역방향 작업에서 일관적으로 더 나은 성능을 보였습니다.
◦
오른손잡이 선호와 같은 인간 중심적 편향을 보였고, 카메라 설정 변경에 민감하게 반응했습니다.