दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विला-X: दृष्टि-भाषा-क्रिया मॉडल में अव्यक्त क्रिया मॉडलिंग को बढ़ाना

Created by
  • Haebom

लेखक

ज़ियाओयू चेन, हैंगक्सिंग वेई, पुसी झांग, चुहेंग झांग, कैक्सिन वांग, यानजियांग गुओ, रुशुआई यांग, युकेन वांग, ज़िनक्वान ज़ियाओ, ली झाओ, जियान्यू चेन, जियांग बियान

रूपरेखा

दृश्य-भाषा-क्रिया (वीएलए) मॉडल पर आधारित, रोबोटिक हेरफेर नीतियों को सीखने पर सक्रिय शोध चल रहा है जो मौखिक निर्देशों का पालन करती हैं और नई स्थितियों में सामान्यीकृत होती हैं। इस शोधपत्र में, हम Villa-X प्रस्तुत करते हैं, जो एक नया ढाँचा है जो अव्यक्त क्रियाओं (दो फ़्रेमों के बीच दृश्य परिवर्तनों के अमूर्त निरूपण) को वीएलए पूर्व-प्रशिक्षण में एकीकृत करता है। villa-X अव्यक्त क्रिया सीखने और वीएलए पूर्व-प्रशिक्षण के एकीकरण को बेहतर बनाता है, जिससे SIMPLER और LIBERO जैसे सिमुलेशन वातावरणों के साथ-साथ ग्रिपर और कुशल हस्त संचालन सहित दो वास्तविक-विश्व रोबोटिक सेटिंग्स में बेहतर प्रदर्शन प्राप्त होता है। यह ViLLA प्रतिमान के महत्व को दर्शाता है और सुझाव देता है कि villa-X भविष्य के शोध के लिए एक आधार के रूप में काम करेगा।

Takeaways, Limitations

Takeaways:
हम अव्यक्त क्रिया मॉडलिंग में सुधार करके VLA पूर्व-प्रशिक्षण के लिए प्रदर्शन में सुधार लाते हैं।
इसने सिमुलेशन और वास्तविक दोनों वातावरणों में उत्कृष्ट रोबोट हेरफेर नीति सीखने का प्रदर्शन दिखाया है।
हमने ViLLA प्रतिमान की उपयोगिता और भविष्य के अनुसंधान के लिए इसकी क्षमता प्रस्तुत की।
Limitations:
विशिष्ट Limitations का इस पेपर में स्पष्ट रूप से उल्लेख नहीं किया गया है। संभावित Limitations में सामान्यीकरण क्षरण, डेटासेट निर्भरता और कम्प्यूटेशनल लागतें शामिल हैं जो वास्तविक दुनिया के अनुप्रयोगों में हो सकती हैं।
👍