본 논문은 자율주행 및 로봇공학과 같은 분야에서 미래를 예측하고 계획하기 위한 에이전트의 필수 요소인 월드 모델을 제안합니다. 기존의 비디오 생성 기반 월드 모델이 계산 자원이 많이 소모되는 문제점을 해결하기 위해, 언어 명령어로 안내되는 슬롯 어텐션을 사용한 객체 중심 표현 공간을 활용하는 월드 모델을 제시합니다. 본 모델은 현재 상태를 객체 중심 표현으로 인식하고, 자연어 명령어를 조건으로 이 표현 공간에서 미래 상태를 예측합니다. 디퓨전 모델 기반 생성 모델보다 훨씬 효율적이며, 객체 인식이 중요한 조작 작업에서 유연하게 미래 상태를 예측할 수 있다는 장점이 있습니다. 실험 결과, 제안된 잠재 예측 월드 모델이 시각-언어-운동 제어 작업에서 생성 월드 모델보다 샘플 및 계산 효율성이 뛰어남을 보여줍니다. 또한, 제안된 방법의 일반화 성능을 조사하고 객체 중심 표현을 사용하여 행동을 예측하기 위한 다양한 전략을 탐구합니다.