Dans cet article, nous proposons MindJourney, un nouveau framework de mise à l'échelle en temps de test pour améliorer la capacité d'inférence spatiale 3D des modèles de langage visuel (MLV). MindJourney combine un modèle du monde contrôlable basé sur la diffusion vidéo avec un MLV afin de surmonter la limitation du MLV à reconnaître uniquement les images 2D et de l'aider à comprendre la dynamique 3D. Le MLV planifie les trajectoires de la caméra, le modèle du monde synthétise les points de vue correspondant à chaque étape et le MLV infère à partir des données multi-vues obtenues lors du processus d'exploration interactive. Nous obtenons une amélioration moyenne des performances de plus de 8 % sur SAT, un benchmark représentatif d'inférence spatiale, sans aucun réglage fin, démontrant que la combinaison du modèle du monde pour la mise à l'échelle en temps de test est une approche simple et prête à l'emploi pour une inférence 3D robuste. De plus, nous démontrons le potentiel de l'exploitation du modèle du monde pour la mise à l'échelle en temps de test en surpassant un MLV d'inférence en temps de test entraîné par apprentissage par renforcement.