इस शोधपत्र में, हम माइंडजर्नी का प्रस्ताव रखते हैं, जो दृश्य-भाषा मॉडल (वीएलएम) की त्रि-आयामी स्थानिक अनुमान क्षमता को बढ़ाने के लिए एक नवीन परीक्षण-समय स्केलिंग ढाँचा है। माइंडजर्नी एक नियंत्रणीय वीडियो प्रसार-आधारित विश्व मॉडल को एक वीएलएम के साथ संयोजित करता है ताकि वीएलएम की केवल द्वि-आयामी छवियों को पहचानने की सीमा को दूर किया जा सके और उसे त्रि-आयामी गतिशीलता को समझने में मदद मिल सके। वीएलएम कैमरा प्रक्षेप पथों की योजना बनाता है, विश्व मॉडल प्रत्येक चरण के अनुरूप दृष्टिकोणों का संश्लेषण करता है, और वीएलएम अंतःक्रियात्मक अन्वेषण प्रक्रिया के दौरान प्राप्त बहु-दृश्य साक्ष्य के आधार पर अनुमान लगाता है। हमने बिना किसी फाइन-ट्यूनिंग के, एक प्रतिनिधि स्थानिक अनुमान बेंचमार्क, SAT पर 8% से अधिक का औसत प्रदर्शन सुधार प्राप्त किया, जिससे यह प्रदर्शित होता है कि परीक्षण-समय स्केलिंग के लिए विश्व मॉडल का संयोजन सुदृढ़ त्रि-आयामी अनुमान के लिए एक सरल, प्लग-एंड-प्ले दृष्टिकोण है। इसके अलावा, हम सुदृढीकरण अधिगम द्वारा प्रशिक्षित परीक्षण-समय अनुमान वीएलएम से बेहतर प्रदर्शन करके परीक्षण-समय स्केलिंग के लिए विश्व मॉडल का लाभ उठाने की क्षमता प्रदर्शित करते हैं।