Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos

Created by
  • Haebom
Category
Empty

저자

Taiyi Su, Jian Zhu, Yaxuan Li, Chong Ma, Zitai Huang, Hanli Wang, Yi Xu

개요

MTV-World는 시각적 관찰과 행동을 통해 물리적 세계를 예측하고 상호 작용하는 것을 목표로 하는 구체화된 세계 모델입니다. MTV-World는 저수준 행동(예: 관절 위치)을 직접 사용하는 대신, 카메라 내·외부 매개변수와 Cartesian 공간 변환을 통해 얻은 궤적 비디오를 제어 신호로 사용하여 정확한 시각 운동 예측을 수행합니다. 다중 뷰 프레임워크를 도입하여 공간 정보 손실을 보완하고 물리적 세계와의 높은 일관성을 보장합니다. MTV-World는 다중 뷰 궤적 비디오를 입력으로, 각 뷰의 초기 프레임을 조건으로 하여 미래 프레임을 예측합니다. 또한, 로봇 모션 정밀도와 객체 상호 작용 정확도를 모두 체계적으로 평가하기 위해 멀티모달 대형 모델과 비디오 객체 분할 모델을 활용하는 자동 평가 파이프라인을 개발했습니다.

시사점, 한계점

시사점:
저수준 행동 대신 궤적 비디오를 활용하여 정확한 시각 운동 예측 달성
다중 뷰 프레임워크를 통해 공간 정보 손실 보완 및 물리적 세계와의 높은 일관성 확보
멀티모달 대형 모델과 비디오 객체 분할 모델을 활용한 자동 평가 파이프라인 개발
복잡한 듀얼 암 시나리오에서 정확한 제어 실행 및 정확한 물리적 상호 작용 모델링 입증
한계점:
논문에 구체적인 한계점에 대한 언급 없음.
👍