본 논문은 대규모 몸체 상호작용 데이터에 대한 의존성이라는 주요 병목 현상을 해결하기 위해, 제한된 짧은 시간 지평선에 초점을 맞춘 새로운 세계 모델링 패러다임인 Primitive Embodied World Models (PEWM)을 제안합니다. PEWM은 고정된 짧은 시간 지평선으로 비디오 생성을 제한함으로써 언어적 개념과 로봇 동작의 시각적 표현 간의 세밀한 정렬을 가능하게 하고, 학습 복잡성을 줄이며, 몸체 데이터 수집의 데이터 효율성을 향상시키고, 추론 지연 시간을 단축합니다. 모듈형 Vision-Language Model (VLM) 플래너와 Start-Goal heatmap Guidance mechanism (SGG)을 갖춤으로써 유연한 폐쇄 루프 제어를 가능하게 하고, 복잡한 작업에 대한 원시 수준 정책의 구성적 일반화를 지원합니다. 비디오 모델의 시공간적 시각적 사전 정보와 VLM의 의미적 인식을 활용하여 세밀한 물리적 상호 작용과 고수준 추론 간의 간극을 해소하여 확장 가능하고 해석 가능하며 범용적인 몸체 지능을 향한 길을 열어줍니다.