दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

EmbodiedOneVision: सामान्य रोबोट नियंत्रण के लिए इंटरलीव्ड विज़न-टेक्स्ट-एक्शन प्रीट्रेनिंग

Created by
  • Haebom

लेखक

डेलिन क्व, हाओमिंग सॉन्ग, किझी चेन, झाओकिंग चेन, जियानकियांग गाओ, ज़िनी ये, क्यूई लव, मोदी शि, गुआंगहुई रेन, चेंग रुआन, माओकिंग याओ, हाओरन यांग, जियाचेंग बाओ, बिन झाओ, डोंग वांग

रूपरेखा

यह शोधपत्र ईओ-रोबोटिक्स, एक एकीकृत सन्निहित आधार मॉडल, ईओ-1, और एक बड़े पैमाने के बहुविध सन्निहित अनुमान डेटासेट, ईओ-डेटा1.5एम, जिसमें 15 लाख से ज़्यादा नमूने शामिल हैं, का परिचय देता है। ईओ-1 को एक एकीकृत आर्किटेक्चर का उपयोग करके प्रशिक्षित किया जाता है जो छवियों, पाठ, वीडियो और क्रियाओं सहित विविध मॉडल इनपुट्स को निर्बाध रूप से संसाधित करता है, और ईओ-डेटा1.5एम, ऑटोरिग्रैसिव डिकोडिंग और फ्लो-मैचिंग डिनॉइज़िंग को सहक्रियात्मक रूप से संयोजित करता है। यह निर्बाध रोबोटिक क्रिया निर्माण और बहुविध सन्निहित अनुमान को सक्षम बनाता है, जो विभिन्न दीर्घकालिक, कुशल हेरफेर कार्यों में खुली दुनिया की समझ और सामान्यीकरण में इसकी प्रभावशीलता को प्रदर्शित करता है। यह शोधपत्र ईओ-1 की आर्किटेक्चर, ईओ-डेटा1.5एम की डेटा संगठन रणनीति और प्रशिक्षण पद्धति का विस्तार से वर्णन करता है।

Takeaways, Limitations

Takeaways:
हम एक एकीकृत सन्निहित आधार मॉडल EO-1 प्रस्तुत करते हैं जो बहुविध सन्निहित अनुमान और रोबोट नियंत्रण में बेहतर प्रदर्शन प्राप्त करता है।
एक एकीकृत वास्तुकला की प्रभावशीलता का प्रदर्शन करना जो विविध मॉडल इनपुट को सहजता से संभालता है।
EO-Data1.5M के विमोचन की घोषणा, जो एक बड़े पैमाने का मल्टीमॉडल सन्निहित अनुमान डेटासेट है जिसमें 1.5 मिलियन से अधिक उच्च-गुणवत्ता वाले नमूने शामिल हैं।
ऑटोरिग्रैसिव डिकोडिंग और फ्लो-मैचिंग डेनॉइजिंग के तालमेल के माध्यम से एक प्रभावी प्रशिक्षण पद्धति प्रस्तुत की गई है।
दीर्घकालिक, कुशल हेरफेर कार्यों में उन्नत खुली दुनिया की समझ और सामान्यीकरण प्रदर्शन।
Limitations:
यह निर्धारित करने के लिए स्पष्ट तुलनात्मक विश्लेषण का अभाव कि क्या EO-1 का प्रदर्शन मानव-स्तर के लचीलेपन तक पहुंच गया है।
EO-Data1.5M डेटासेट के पूर्वाग्रह और सामान्यीकरण का आगे विश्लेषण आवश्यक है।
विभिन्न रोबोटिक प्लेटफार्मों और वातावरणों में EO-1 की सामान्यता का मूल्यांकन करने के लिए आगे और प्रयोगों की आवश्यकता है।
ऊर्जा दक्षता और वास्तविक समय प्रदर्शन के मूल्यांकन का अभाव।
👍