Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos
Created by
Haebom
Category
Empty
저자
Taiyi Su, Jian Zhu, Yaxuan Li, Chong Ma, Zitai Huang, Hanli Wang, Yi Xu
개요
MTV-World는 시각적 관찰과 행동을 통해 물리적 세계를 예측하고 상호 작용하는 것을 목표로 하는 구체화된 세계 모델입니다. MTV-World는 저수준 행동(예: 관절 위치)을 직접 사용하는 대신, 카메라 내·외부 매개변수와 Cartesian 공간 변환을 통해 얻은 궤적 비디오를 제어 신호로 사용하여 정확한 시각 운동 예측을 수행합니다. 다중 뷰 프레임워크를 도입하여 공간 정보 손실을 보완하고 물리적 세계와의 높은 일관성을 보장합니다. MTV-World는 다중 뷰 궤적 비디오를 입력으로, 각 뷰의 초기 프레임을 조건으로 하여 미래 프레임을 예측합니다. 또한, 로봇 모션 정밀도와 객체 상호 작용 정확도를 모두 체계적으로 평가하기 위해 멀티모달 대형 모델과 비디오 객체 분할 모델을 활용하는 자동 평가 파이프라인을 개발했습니다.