यह शोधपत्र ViCA2 प्रस्तुत करता है, जो दृश्य-स्थानिक संज्ञान को, विशेष रूप से स्थानिक लेआउट, संबंधों और गतिशीलता का अनुमान लगाने की क्षमता को बढ़ाने के लिए एक नवीन बहुविध वृहत्-स्तरीय भाषा मॉडल (MLLM) है। ViCA2 में एक दोहरी दृश्य एनकोडर संरचना है जो अर्थविज्ञान के लिए SigLIP और स्थानिक संरचना के लिए Hiera को एकीकृत करती है, साथ ही दक्षता के लिए एक टोकन दर नियंत्रण तंत्र भी प्रदान करती है। इसके अलावा, हमने लक्ष्य-निर्देशित ट्यूनिंग के लिए 320,000 से अधिक स्थानिक प्रश्न-उत्तर युग्मों वाला एक वृहत्-स्तरीय डेटासेट, ViCA-322K, विकसित किया है। ViCA2-7B मॉडल ने VSI-बेंच बेंचमार्क पर 56.8 का अत्याधुनिक औसत स्कोर प्राप्त किया, जो LLaVA-NeXT-Video-72B और Gemini-1.5 Pro जैसे बड़े ओपन-सोर्स और स्वामित्व वाले मॉडलों से बेहतर प्रदर्शन करता है। हम आगे के शोध में सहायता के लिए ViCA2, इसके कोडबेस और ViCA-322K डेटासेट को सार्वजनिक रूप से उपलब्ध कराते हैं।