दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डेक्सग्रास्पवीएलए: सामान्य निपुणतापूर्ण समझ की दिशा में एक दृष्टि-भाषा-कार्य ढाँचा

Created by
  • Haebom

लेखक

यिफान झोंग, ज़ुचुआन हुआंग, रुओचोंग ली, सेयाओ झांग, झांग चेन, तियानरुई गुआन, फैनलियन ज़ेंग, का नुम लुई, युयाओ ये, यिताओ लियांग, याओदोंग यांग, युआनपेई चेन

रूपरेखा

DexGraspVLA भाषा-निर्देशित सामान्य निपुण ग्रास्पिंग और उससे आगे के लिए एक पदानुक्रमित ढाँचा है। यह एक पूर्व-प्रशिक्षित दृष्टि-भाषा मॉडल का उपयोग उच्च-स्तरीय योजनाकार के रूप में करता है और एक प्रसार-आधारित निम्न-स्तरीय क्रिया नियंत्रक सीखता है। सामान्यीकरण प्राप्त करने की मुख्य अंतर्दृष्टि अंतर्निहित मॉडल के माध्यम से विविध भाषा और दृश्य इनपुट को डोमेन-अपरिवर्तनीय अभ्यावेदन में पुनरावृत्त रूपांतरित करने में निहित है, जहाँ डोमेन शिफ्ट शमन अनुकरण अधिगम को प्रभावी ढंग से लागू करता है। यह विधि हज़ारों चुनौतीपूर्ण, अज्ञात और अव्यवस्थित दृश्यों में 90% से अधिक निपुण ग्रास्पिंग सफलता दर प्राप्त करती है। अनुभवजन्य विश्लेषण पर्यावरणीय परिवर्तनों के दौरान आंतरिक मॉडल व्यवहार की संगति की पुष्टि करके डिज़ाइन को मान्य करता है। इसके अलावा, DexGraspVLA पहला ऐसा ढाँचा है जो एक साथ मुक्त-रूप, दीर्घकालिक त्वरित निष्पादन, प्रतिकूल वस्तुओं और मानवीय हस्तक्षेप के प्रति सुदृढ़ता, और विफलता पुनर्प्राप्ति का प्रदर्शन करता है। गैर-ग्रास्पिंग ग्रास्पिंग के विस्तारित अनुप्रयोग इसकी व्यापकता को और भी स्पष्ट करते हैं।

Takeaways, Limitations

Takeaways:
विभिन्न वातावरणों में उच्च सफलता दर वाली निपुणतापूर्ण पकड़ प्राप्त करने के लिए एक पूर्व-प्रशिक्षित दृश्य-भाषा मॉडल को प्रसार-आधारित क्रिया नियंत्रक के साथ संयोजित करना।
डोमेन-अपरिवर्तनीय अभ्यावेदन का उपयोग करके अनुकरण सीखने की दक्षता में सुधार करना और सामान्यीकरण प्रदर्शन में सुधार करना।
मुक्त-रूप दीर्घकालिक त्वरित निष्पादन, प्रतिकूल वस्तुओं और मानवीय हस्तक्षेप के विरुद्ध मजबूती, तथा विफलता पुनर्प्राप्ति को एक साथ क्रियान्वित करना।
हम एक सामान्य रूपरेखा प्रस्तुत करते हैं जिसे गैर-फेज फेज तक बढ़ाया जा सकता है।
Limitations:
इस शोधपत्र में Limitations का विशेष रूप से उल्लेख नहीं किया गया है। भविष्य के शोध में एल्गोरिथम की मज़बूती और सामान्यीकरण क्षमता के अधिक कठोर मूल्यांकन की आवश्यकता हो सकती है।
वास्तविक रोबोटिक प्रणालियों के लिए अनुप्रयोग और प्रदर्शन मूल्यांकन पर विवरण का अभाव।
कम्प्यूटेशनल लागत और वास्तविक समय प्रदर्शन के विश्लेषण का अभाव।
👍