본 논문은 로봇의 정책 성능 향상을 위해 예측된 상태를 활용하는 예측적 조작(Predictive Manipulation)에 초점을 맞추고 있습니다. 기존의 세계 모델이 로봇-물체 상호작용의 미래 시각적 상태를 정확하게, 특히 픽셀 단위 수준으로 생성하는 데 어려움을 겪는다는 점을 해결하기 위해, 본 논문에서는 확산 모델링(diffusion modeling)을 사용하여 미래 상태의 잠재 공간을 예측하는 세계 모델 LaDi-WM을 제안합니다. LaDi-WM은 사전 훈련된 시각적 기반 모델(VFMs)과 정렬된 잠재 공간을 활용하여 기하학적 특징(DINO 기반)과 의미적 특징(CLIP 기반)을 모두 포함합니다. 픽셀 단위 이미지 직접 예측보다 잠재 공간의 변화를 예측하는 것이 학습이 용이하고 일반화 성능이 더 우수함을 보입니다. LaDi-WM을 기반으로, 예측된 상태를 통합하여 출력 동작을 반복적으로 개선하는 확산 정책(diffusion policy)을 설계하여 보다 일관되고 정확한 결과를 생성합니다. 합성 및 실제 환경 벤치마크에 대한 광범위한 실험을 통해 LaDi-WM이 LIBERO-LONG 벤치마크에서 27.9%, 실제 환경 시나리오에서 20%의 정책 성능 향상을 가져옴을 보여주며, 실제 환경 실험에서도 인상적인 일반화 성능을 달성합니다.