본 논문은 로봇의 정책 성능 향상을 위해 예측된 상태를 활용하는 예측 조작(Predictive Manipulation)에 초점을 맞춥니다. 기존의 정확한 미래 시각적 상태 생성의 어려움을 해결하기 위해, 본 논문은 확산 모델(diffusion modeling)을 이용하여 미래 상태의 잠재 공간을 예측하는 세계 모델 LaDi-WM을 제안합니다. LaDi-WM은 기하학적 특징(DINO 기반)과 의미적 특징(CLIP 기반)을 포함하는 사전 훈련된 시각적 기초 모델(VFM)과 정렬된 잠재 공간을 활용하여 픽셀 수준 이미지 직접 예측보다 학습이 용이하고 일반화 성능이 뛰어납니다. LaDi-WM을 기반으로, 예측된 상태를 통합하여 출력 동작을 반복적으로 개선하는 확산 정책을 설계하여 더욱 일관되고 정확한 결과를 생성합니다. 합성 및 실제 환경 벤치마크에서 광범위한 실험을 통해 LaDi-WM이 LIBERO-LONG 벤치마크에서 27.9%, 실제 환경 시나리오에서 20%의 성능 향상을 보임을 확인하였고, 실제 환경 실험에서 뛰어난 일반화 성능을 달성했습니다.