En este artículo, proponemos MindJourney, un novedoso marco de escalamiento en tiempo de prueba para mejorar la capacidad de inferencia espacial 3D de los modelos de lenguaje visual (VLM). MindJourney combina un modelo de mundo controlable basado en difusión de video con un VLM para superar la limitación del VLM de reconocer únicamente imágenes 2D y comprender la dinámica 3D. El VLM planifica las trayectorias de la cámara, el modelo de mundo sintetiza los puntos de vista correspondientes a cada paso y el VLM infiere basándose en la evidencia multivista obtenida durante el proceso de exploración interactiva. Logramos una mejora promedio del rendimiento de más del 8% en SAT, un punto de referencia representativo de inferencia espacial, sin necesidad de ajustes, lo que demuestra que la combinación del modelo de mundo para el escalamiento en tiempo de prueba es un enfoque simple e inmediato para una inferencia 3D robusta. Además, demostramos el potencial de aprovechar el modelo de mundo para el escalamiento en tiempo de prueba al superar el rendimiento de un VLM de inferencia en tiempo de prueba entrenado mediante aprendizaje por refuerzo.