दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ViGiL3D: 3D विज़ुअल ग्राउंडिंग के लिए भाषाई रूप से विविध डेटासेट

Created by
  • Haebom

लेखक

ऑस्टिन टी. वांग, ज़ेमिंग गोंग, एंजेल X। चांग

रूपरेखा

यह शोधपत्र 3D विज़ुअल ग्राउंडिंग (3DVG) में प्राकृतिक भाषा पाठ द्वारा संदर्भित 3D दृश्यों में वस्तुओं को खोजने के कार्य पर केंद्रित है। हाल के शोध ने LLM-आधारित 3DVG डेटासेट के विस्तार पर ध्यान केंद्रित किया है, लेकिन इन डेटासेट की सीमाएँ हैं क्योंकि ये उन सभी प्रकार के प्रश्नों को शामिल नहीं करते जिन्हें अंग्रेजी में व्यक्त किया जा सकता है। इसलिए, यह शोधपत्र 3DVG संकेतों का भाषाई विश्लेषण करने के लिए एक ढाँचा प्रस्तावित करता है और विभिन्न भाषा पैटर्न के लिए विज़ुअल ग्राउंडिंग विधियों के मूल्यांकन हेतु एक नैदानिक ​​डेटासेट, ViGiL3D का परिचय देता है। हम मौजूदा ओपन-वोक्युलैबर 3DVG विधियों का मूल्यांकन करते हैं और दर्शाते हैं कि व्यावहारिक अनुप्रयोगों के लिए अधिक कठिन और वितरण-बाह्य प्रश्नों पर लक्ष्यों को समझने और पहचानने की क्षमता में उनमें अभी भी कमी है।

Takeaways, Limitations

Takeaways: हम ViGiL3D प्रस्तुत करते हैं, जो विभिन्न भाषा पैटर्न वाला एक 3DVG डेटासेट है, जो मौजूदा विधियों की सीमाओं को उजागर करता है और भविष्य के अनुसंधान की दिशाएँ सुझाता है। हम वास्तविक दुनिया के अनुप्रयोगों के अधिक विविध और कठिन प्रश्नों के लिए 3DVG मॉडलों के प्रदर्शन मूल्यांकन मानदंड स्थापित करते हैं।
Limitations: ViGiL3D डेटासेट सभी संभावित भाषा पैटर्न को पूरी तरह से कवर नहीं कर सकता है। प्रस्तुत फ्रेमवर्क और डेटासेट के सामान्यीकरण प्रदर्शन पर और शोध की आवश्यकता है। हालाँकि यह वर्तमान 3DVG विधियों की वास्तविक दुनिया में प्रयोज्यता की सीमाओं को स्पष्ट रूप से दर्शाता है, फिर भी सुधार के लिए विशिष्ट सुझावों का अभाव है।
👍