यह शोधपत्र वर्तमान दृष्टि-भाषा मॉडल (VLM) के लिए वीडियो-आधारित स्थानिक बोध की चुनौती पर विचार करता है, जो रोबोटिक्स और एम्बेडेड AI के लिए आवश्यक है। हम ViCA-322K प्रस्तुत करते हैं, जो वास्तविक दुनिया के इनडोर वीडियो (ARKitScenes, ScanNet, ScanNet++) से प्राप्त 322,003 प्रश्न-उत्तर युग्मों वाला एक विविध डेटासेट है, जो 3D मेटाडेटा-आधारित क्वेरी और वीडियो-आधारित जटिल अनुमान के लिए मार्गदर्शन प्रदान करता है। इसके अलावा, हम ViCA-322K पर परिशोधित ViCA-7B मॉडल विकसित करते हैं, और प्रदर्शित करते हैं कि यह सभी आठ VSI-बेंच कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करता है, और बड़े मॉडलों (जैसे, निरपेक्ष दूरी में +26.1) से बेहतर प्रदर्शन करता है। व्याख्यात्मकता को बढ़ाने के लिए, हम ViCA-Thinking-2.68K डेटासेट प्रस्तुत करते हैं, जिसमें एक स्पष्ट अनुमान श्रृंखला शामिल है, और ViCA-7B को परिशोधित करके ViCA-7B-Thinking मॉडल तैयार करते हैं, जो स्थानिक अनुमान की स्पष्ट व्याख्या करता है। यह अध्ययन लक्ष्य-उन्मुख डेटा के महत्व पर प्रकाश डालता है, बेहतर स्थानिक-कालिक मॉडलिंग के लिए दिशा-निर्देश प्रदान करता है, तथा सभी संसाधनों को उपलब्ध कराकर मजबूत दृश्य-स्थानिक बुद्धिमत्ता अनुसंधान को बढ़ावा देता है।