본 논문은 실제 환경에서 효율적이고 확장 가능한 로봇 제어를 가능하게 하기 위해, 복잡하고 부분적으로 관찰 가능하며 확률적인 역학을 정확하게 포착하는 새로운 세계 모델 학습 프레임워크를 제시한다. 제안된 방법은 이중 자기 회귀 메커니즘과 자가 지도 학습을 사용하여 특정 도메인에 의존하지 않고 장기 예측을 수행하여 다양한 로봇 작업에 적응할 수 있도록 한다. 또한, 가상 환경에서 효율적인 훈련과 실제 시스템에서 원활한 배포를 위해 세계 모델을 활용하는 정책 최적화 프레임워크를 제안한다. 이 연구는 장기 예측, 오류 축적 및 시뮬레이션-실제 전송의 문제를 해결함으로써 모델 기반 강화 학습을 발전시킨다.