MTV-World는 시각적 관찰과 행동을 통해 물리적 세계를 예측하고 상호 작용하는 것을 목표로 하는 구체화된 세계 모델입니다. 기존 모델이 저수준 행동을 정확한 로봇 움직임으로 변환하는 데 어려움을 겪는 문제를 해결하기 위해, MTV-World는 Multi-view Trajectory-Video 제어를 도입하여 정확한 시각-운동 예측을 수행합니다. 특히, 저수준 행동 대신, 카메라 내부 및 외부 매개변수와 Cartesian 공간 변환을 통해 얻은 궤적 비디오를 제어 신호로 사용합니다. MTV-World는 여러 뷰를 활용하여 공간 정보 손실을 보완하고, 초기 프레임을 기반으로 미래 프레임을 예측합니다. 또한, 로봇 동작 정밀도와 객체 상호 작용 정확도를 평가하기 위해 멀티모달 대형 모델과 비디오 객체 분할 모델을 활용하는 자동 평가 파이프라인을 개발했습니다. 실험 결과, MTV-World는 복잡한 듀얼 암 시나리오에서 정확한 제어 실행과 정확한 물리적 상호 작용 모델링을 달성했습니다.