दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

दृश्य विशेषज्ञों के पदानुक्रमिक संलयन के माध्यम से दृश्य-स्थानिक अनुभूति की ओर

Created by
  • Haebom

लेखक

क्यूई फेंग

रूपरेखा

यह शोधपत्र ViCA2 प्रस्तुत करता है, जो दृश्य-स्थानिक संज्ञान को, विशेष रूप से स्थानिक लेआउट, संबंधों और गतिशीलता का अनुमान लगाने की क्षमता को बढ़ाने के लिए एक नवीन बहुविध वृहत्-स्तरीय भाषा मॉडल (MLLM) है। ViCA2 में एक दोहरी दृश्य एनकोडर संरचना है जो अर्थविज्ञान के लिए SigLIP और स्थानिक संरचना के लिए Hiera को एकीकृत करती है, साथ ही दक्षता के लिए एक टोकन दर नियंत्रण तंत्र भी प्रदान करती है। इसके अलावा, हमने लक्ष्य-निर्देशित ट्यूनिंग के लिए 320,000 से अधिक स्थानिक प्रश्न-उत्तर युग्मों वाला एक वृहत्-स्तरीय डेटासेट, ViCA-322K, विकसित किया है। ViCA2-7B मॉडल ने VSI-बेंच बेंचमार्क पर 56.8 का अत्याधुनिक औसत स्कोर प्राप्त किया, जो LLaVA-NeXT-Video-72B और Gemini-1.5 Pro जैसे बड़े ओपन-सोर्स और स्वामित्व वाले मॉडलों से बेहतर प्रदर्शन करता है। हम आगे के शोध में सहायता के लिए ViCA2, इसके कोडबेस और ViCA-322K डेटासेट को सार्वजनिक रूप से उपलब्ध कराते हैं।

Takeaways, Limitations

Takeaways:
छोटे पैमाने का मॉडल (7B) होने के बावजूद, इसने दृश्य स्थानिक अनुमान प्रदर्शन हासिल किया जो मौजूदा बड़े पैमाने के मॉडलों से आगे निकल गया।
हम एक नए डेटासेट, ViCA-322K के साथ दोहरे दृश्य एनकोडर आर्किटेक्चर की प्रभावशीलता को प्रदर्शित करते हैं।
मॉडल, कोड और डेटासेट तक खुली पहुंच से आगे के शोध में सुविधा हो सकती है।
Limitations:
वीएसआई-बेंच बेंचमार्क के अलावा अन्य बेंचमार्क पर प्रदर्शन का मूल्यांकन नहीं किया गया।
मॉडल की सामान्यीकरण क्षमता का आगे मूल्यांकन आवश्यक है।
ViCA-322K डेटासेट के पूर्वाग्रह और सामान्यीकरण पर विश्लेषण का अभाव है।
👍