यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
सीमित परिवेशों में उच्च सटीकता प्राप्त करने वाली पर्यवेक्षित शिक्षण विधियों के विपरीत, यह शोधपत्र ज़ीरो-शॉट 3D विज़ुअल ग्राउंडिंग (3DVG) पर केंद्रित है, जो वास्तविक-विश्व अनुप्रयोगों के लिए लाभप्रद है। मौजूदा ज़ीरो-शॉट विधियों की स्थानिक अनुमान सीमाओं और संदर्भ लोप या विवरण ह्रास की समस्याओं का समाधान करने के लिए, हम SeqVLM का प्रस्ताव करते हैं, जो एक नवीन ज़ीरो-शॉट 3DVG ढाँचा है जो बहु-दृश्य वास्तविक-विश्व दृश्य छवियों और स्थानिक जानकारी का लाभ उठाता है। SeqVLM एक 3D सिमेंटिक सेगमेंटेशन नेटवर्क के माध्यम से 3D इंस्टेंस प्रस्ताव उत्पन्न करता है और सिमेंटिक फ़िल्टरिंग के माध्यम से प्रस्तावों को परिष्कृत करता है, केवल सिमेंटिक रूप से प्रासंगिक उम्मीदवारों को बनाए रखते हुए। एक प्रस्ताव-आधारित बहु-दृश्य प्रक्षेपण रणनीति उम्मीदवार प्रस्तावों को वास्तविक-विश्व दृश्य छवि अनुक्रमों पर प्रक्षेपित करती है, 3D बिंदु क्लाउड-टू-इमेज रूपांतरण प्रक्रिया के दौरान स्थानिक संबंधों और प्रासंगिक विवरणों को संरक्षित करती है। इसके अलावा, VLM के कम्प्यूटेशनल भार को कम करने के लिए, हम एक गतिशील शेड्यूलिंग तंत्र लागू करते हैं जो अनुक्रम-क्वेरी संकेतों को बार-बार संसाधित करता है। यह गतिशील शेड्यूलिंग तंत्र, पाठ-निर्दिष्ट ऑब्जेक्ट्स की पहचान करने के लिए VLM की क्रॉस-मोडल अनुमान क्षमताओं का लाभ उठाता है। स्कैनरेफर और Nr3D बेंचमार्क पर प्रायोगिक परिणाम अत्याधुनिक प्रदर्शन प्रदर्शित करते हैं, जिससे Acc@0.25 स्कोर क्रमशः 55.6% और 53.2% प्राप्त हुए, जो मौजूदा ज़ीरो-शॉट विधियों से 4.0% और 5.2% बेहतर हैं। कोड https://github.com/JiawLin/SeqVLM पर उपलब्ध है ।
Takeaways, Limitations
•
Takeaways:
◦
बहु-दृश्य छवियों और स्थानिक जानकारी का लाभ उठाकर शून्य-शॉट 3DVG प्रदर्शन में सुधार करना और सामान्यीकरण को बढ़ाना।
◦
गतिशील शेड्यूलिंग तंत्र के माध्यम से वीएलएम कम्प्यूटेशनल लोड को कम करना।
◦
स्कैनरेफर और एनआर3डी बेंचमार्क में अत्याधुनिक प्रदर्शन प्राप्त करना।
◦
वास्तविक दुनिया में प्रयोज्यता में वृद्धि।
•
Limitations:
◦
प्रस्तावित विधि का प्रदर्शन 3D सिमेंटिक सेगमेंटेशन नेटवर्क और प्रयुक्त VLM के प्रदर्शन पर निर्भर हो सकता है।
◦
बहु-दृश्य छवि प्रसंस्करण के कारण कम्प्यूटेशनल लागत में संभावित वृद्धि।
◦
कुछ प्रकार के दृश्यों या वस्तुओं के प्रदर्शन में गिरावट की संभावना हो सकती है।
◦
विभिन्न वातावरणों में सामान्यीकरण प्रदर्शन पर और अधिक शोध की आवश्यकता है।