Cet article se concentre sur la manipulation prédictive, qui exploite les états prédits pour améliorer les performances des politiques robotiques. Pour pallier la difficulté des modèles du monde existants à générer avec précision les futurs états visuels des interactions robot-objet, notamment au niveau pixel, nous proposons LaDi-WM, un modèle du monde qui prédit l'espace latent des futurs états grâce à la modélisation par diffusion. LaDi-WM intègre des caractéristiques géométriques (basées sur DINO) et sémantiques (basées sur CLIP) en exploitant des modèles visuels pré-entraînés (VFM) et des espaces latents alignés. Nous démontrons que la prédiction des changements dans l'espace latent facilite l'apprentissage et se généralise mieux que la prédiction directe d'images au niveau pixel. Sur la base de LaDi-WM, nous concevons une politique de diffusion qui améliore itérativement le comportement de sortie en intégrant les états prédits, ce qui produit des résultats plus cohérents et précis. Des expériences approfondies sur des benchmarks synthétiques et réels démontrent que LaDi-WM améliore les performances des politiques de 27,9 % sur le benchmark LIBERO-LONG et de 20 % dans des scénarios réels, obtenant des performances de généralisation impressionnantes même dans les expériences réelles.