दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

SeqVLM: शून्य-शॉट 3D विज़ुअल ग्राउंडिंग के लिए VLM के माध्यम से प्रस्ताव-निर्देशित बहु-दृश्य अनुक्रम तर्क

Created by
  • Haebom

लेखक

जियावेन लिन, शिरन बियान, यिहांग झू, वेनबिन टैन, याचाओ झांग, युआन झी, यान्युन क्व

रूपरेखा

सीमित परिवेशों में उच्च सटीकता प्राप्त करने वाली पर्यवेक्षित शिक्षण विधियों के विपरीत, यह शोधपत्र ज़ीरो-शॉट 3D विज़ुअल ग्राउंडिंग (3DVG) पर केंद्रित है, जो वास्तविक-विश्व अनुप्रयोगों के लिए लाभप्रद है। मौजूदा ज़ीरो-शॉट विधियों की स्थानिक अनुमान सीमाओं और संदर्भ लोप या विवरण ह्रास की समस्याओं का समाधान करने के लिए, हम SeqVLM का प्रस्ताव करते हैं, जो एक नवीन ज़ीरो-शॉट 3DVG ढाँचा है जो बहु-दृश्य वास्तविक-विश्व दृश्य छवियों और स्थानिक जानकारी का लाभ उठाता है। SeqVLM एक 3D सिमेंटिक सेगमेंटेशन नेटवर्क के माध्यम से 3D इंस्टेंस प्रस्ताव उत्पन्न करता है और सिमेंटिक फ़िल्टरिंग के माध्यम से प्रस्तावों को परिष्कृत करता है, केवल सिमेंटिक रूप से प्रासंगिक उम्मीदवारों को बनाए रखते हुए। एक प्रस्ताव-आधारित बहु-दृश्य प्रक्षेपण रणनीति उम्मीदवार प्रस्तावों को वास्तविक-विश्व दृश्य छवि अनुक्रमों पर प्रक्षेपित करती है, 3D बिंदु क्लाउड-टू-इमेज रूपांतरण प्रक्रिया के दौरान स्थानिक संबंधों और प्रासंगिक विवरणों को संरक्षित करती है। इसके अलावा, VLM के कम्प्यूटेशनल भार को कम करने के लिए, हम एक गतिशील शेड्यूलिंग तंत्र लागू करते हैं जो अनुक्रम-क्वेरी संकेतों को बार-बार संसाधित करता है। यह गतिशील शेड्यूलिंग तंत्र, पाठ-निर्दिष्ट ऑब्जेक्ट्स की पहचान करने के लिए VLM की क्रॉस-मोडल अनुमान क्षमताओं का लाभ उठाता है। स्कैनरेफर और Nr3D बेंचमार्क पर प्रायोगिक परिणाम अत्याधुनिक प्रदर्शन प्रदर्शित करते हैं, जिससे Acc@0.25 स्कोर क्रमशः 55.6% और 53.2% प्राप्त हुए, जो मौजूदा ज़ीरो-शॉट विधियों से 4.0% और 5.2% बेहतर हैं। कोड https://github.com/JiawLin/SeqVLM पर उपलब्ध है ।

Takeaways, Limitations

Takeaways:
बहु-दृश्य छवियों और स्थानिक जानकारी का लाभ उठाकर शून्य-शॉट 3DVG प्रदर्शन में सुधार करना और सामान्यीकरण को बढ़ाना।
गतिशील शेड्यूलिंग तंत्र के माध्यम से वीएलएम कम्प्यूटेशनल लोड को कम करना।
स्कैनरेफर और एनआर3डी बेंचमार्क में अत्याधुनिक प्रदर्शन प्राप्त करना।
वास्तविक दुनिया में प्रयोज्यता में वृद्धि।
Limitations:
प्रस्तावित विधि का प्रदर्शन 3D सिमेंटिक सेगमेंटेशन नेटवर्क और प्रयुक्त VLM के प्रदर्शन पर निर्भर हो सकता है।
बहु-दृश्य छवि प्रसंस्करण के कारण कम्प्यूटेशनल लागत में संभावित वृद्धि।
कुछ प्रकार के दृश्यों या वस्तुओं के प्रदर्शन में गिरावट की संभावना हो सकती है।
विभिन्न वातावरणों में सामान्यीकरण प्रदर्शन पर और अधिक शोध की आवश्यकता है।
👍