Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos

Created by
  • Haebom
Category
Empty

저자

Taiyi Su, Jian Zhu, Yaxuan Li, Chong Ma, Zitai Huang, Yichen Zhu, Hanli Wang, Yi Xu

개요

MTV-World는 시각적 관찰과 행동을 통해 물리적 세계를 예측하고 상호 작용하는 것을 목표로 하는 구체화된 세계 모델입니다. 기존 모델이 저수준 행동을 정확한 로봇 움직임으로 변환하는 데 어려움을 겪는 문제를 해결하기 위해, MTV-World는 Multi-view Trajectory-Video 제어를 도입하여 정확한 시각-운동 예측을 수행합니다. 특히, 저수준 행동 대신, 카메라 내부 및 외부 매개변수와 Cartesian 공간 변환을 통해 얻은 궤적 비디오를 제어 신호로 사용합니다. MTV-World는 여러 뷰를 활용하여 공간 정보 손실을 보완하고, 초기 프레임을 기반으로 미래 프레임을 예측합니다. 또한, 로봇 동작 정밀도와 객체 상호 작용 정확도를 평가하기 위해 멀티모달 대형 모델과 비디오 객체 분할 모델을 활용하는 자동 평가 파이프라인을 개발했습니다. 실험 결과, MTV-World는 복잡한 듀얼 암 시나리오에서 정확한 제어 실행과 정확한 물리적 상호 작용 모델링을 달성했습니다.

시사점, 한계점

시사점:
저수준 행동 대신 궤적 비디오를 제어 신호로 사용하여 정확한 시각-운동 예측을 달성했습니다.
Multi-view 프레임워크를 통해 공간 정보 손실 문제를 해결하고 물리적 세계와의 일관성을 높였습니다.
멀티모달 대형 모델 기반의 자동 평가 파이프라인을 구축하여 로봇 동작 정밀도 및 객체 상호 작용 정확도를 평가했습니다.
복잡한 듀얼 암 시나리오에서 정확한 제어 실행 및 물리적 상호 작용 모델링 성능을 입증했습니다.
한계점:
3D 원시 행동을 2D 이미지로 투영하는 과정에서 정보 손실이 발생할 수 있습니다. (하지만 multi-view로 보완)
자동 평가 파이프라인의 성능은 사용된 멀티모달 대형 모델 및 비디오 객체 분할 모델의 정확도에 의존적입니다.
제안된 모델의 일반화 능력 및 다른 로봇 환경으로의 적용 가능성에 대한 추가 연구가 필요합니다.
👍