본 논문은 자율주행 및 로봇공학과 같은 분야에서 미래를 예측하고 계획을 세우기 위한 에이전트의 필수 요소인 세계 모델을 제안합니다. 기존의 비디오 생성 기반 세계 모델은 계산 자원이 많이 필요하다는 한계를 가지고 있는데, 본 논문에서는 슬롯 어텐션을 사용하여 객체 중심 표현 공간을 활용하는 세계 모델을 제시합니다. 자연어 명령어에 따라 현재 상태를 객체 중심 표현으로 인식하고, 이 표현 공간에서 미래 상태를 예측합니다. 이는 확산 모델 기반 생성 모델보다 더욱 효율적이며, 객체 인식이 중요한 조작 작업에서 유연성을 제공합니다. 실험 결과, 제안된 잠재 예측 세계 모델은 시각-언어-운동 제어 작업에서 생성적 세계 모델보다 우수한 샘플 및 계산 효율성을 달성함을 보여줍니다. 또한, 제안된 방법의 일반화 성능을 조사하고 객체 중심 표현을 사용하여 행동을 예측하기 위한 다양한 전략을 탐구합니다.