Este artículo se centra en la manipulación predictiva, que aprovecha los estados predichos para mejorar el rendimiento de las políticas robóticas. Para abordar la dificultad de los modelos de mundo existentes para generar con precisión estados visuales futuros de interacciones robot-objeto, especialmente a nivel de píxel, proponemos LaDi-WM, un modelo de mundo que predice el espacio latente de estados futuros mediante modelado de difusión. LaDi-WM incorpora características geométricas (basadas en DINO) y semánticas (basadas en CLIP) al aprovechar modelos visuales preentrenados (VFM) y espacios latentes alineados. Demostramos que predecir cambios en el espacio latente facilita el aprendizaje y se generaliza mejor que la predicción directa de imágenes a nivel de píxel. Basándonos en LaDi-WM, diseñamos una política de difusión que mejora iterativamente el comportamiento de salida al incorporar estados predichos, lo que resulta en resultados más consistentes y precisos. Amplios experimentos en puntos de referencia sintéticos y del mundo real demuestran que LaDi-WM mejora el rendimiento de las políticas en un 27,9 % en el punto de referencia LIBERO-LONG y en un 20 % en escenarios del mundo real, logrando un rendimiento de generalización impresionante incluso en experimentos del mundo real.