दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

फ़नग्राफ़: भाषा-प्रेरित दृश्य इंटरैक्शन के लिए कार्यात्मकता-सचेत 3D दृश्य ग्राफ़

Created by
  • Haebom

लेखक

डेनिस रोटोंडी, फैबियो स्कैपरो, हरमन ब्लम, काई ओ. अर्रास

रूपरेखा

इस शोधपत्र का उद्देश्य एक ऐसा त्रि-आयामी दृश्य ग्राफ़ निरूपण विकसित करना है जो कार्यात्मक अंतःक्रिया तत्वों के स्थान और उपयोग की पहचान कर सके, जिससे रोबोट अपने परिवेश के साथ सीधे अंतःक्रिया कर सकें। पारंपरिक वस्तु-स्तरीय रिज़ॉल्यूशन पर निर्भर रहने के बजाय, हम वस्तुओं का पता लगाने और उन्हें बेहतर रिज़ॉल्यूशन पर संग्रहीत करने पर ध्यान केंद्रित करते हैं, और उनके कार्यात्मक महत्व पर ध्यान केंद्रित करते हैं। डेटा की कमी और रोबोटिक सेंसर का उपयोग करके विस्तृत वस्तु विशेषताओं को कैप्चर करने की चुनौतियों का समाधान करने के लिए, हम मौजूदा त्रि-आयामी संसाधनों का उपयोग द्वि-आयामी डेटा उत्पन्न करने और डिटेक्टरों को प्रशिक्षित करने के लिए करते हैं, जिससे मानक त्रि-आयामी दृश्य ग्राफ़ निर्माण प्रक्रिया में सुधार होता है। प्रायोगिक परिणाम दर्शाते हैं कि हमारा दृष्टिकोण अत्याधुनिक त्रि-आयामी मॉडलों के बराबर कार्यात्मक तत्व विभाजन प्रदर्शन प्राप्त करता है और मौजूदा समाधानों की तुलना में अधिक सटीकता के साथ कार्य-संचालित कार्यात्मक अर्थ संबंधी संघों को सक्षम बनाता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन 3D दृश्य ग्राफ प्रस्तुति प्रस्तुत करते हैं जो कार्यात्मक अंतःक्रिया तत्वों के स्थान और उपयोग की पहचान करता है।
सूक्ष्म-रिज़ॉल्यूशन ऑब्जेक्ट पहचान और भंडारण के माध्यम से रोबोट-पर्यावरण संपर्क में सुधार करना।
2D डेटा संवर्द्धन के माध्यम से 3D दृश्य ग्राफ निर्माण पाइपलाइन के प्रदर्शन में सुधार करना।
अत्याधुनिक प्रदर्शन प्राप्त करने के लिए कार्यात्मक तत्व विभाजन और कार्य-उन्मुख कार्यात्मक अर्थगत लिंकिंग।
Limitations:
रोबोट सेंसर का उपयोग करके विस्तृत वस्तु विशेषताओं को कैप्चर करने में कठिनाई।
उदाहरण-स्तर पर पता लगाने से परे डेटा का अभाव।
3D संसाधनों की सीमित सीमा का उपयोग।
👍