EgoVLA: अहंकारी मानव वीडियो से दृष्टि-भाषा-क्रिया मॉडल सीखना

Created by

Haebom

लेखक

रुइहान यांग, किनक्सी यू, येचेंग वू, रुई यान, बोरुई ली, एन-चिह चेंग, ज़ुएयान ज़ू, युन्हाओ फ़ेंग, होंगक्सू यिन, सिफ़ेई लियू, सोंग हान, याओ लू, ज़ियाओलोंग वांग

रूपरेखा

इस शोधपत्र में, हम EgoVLA, एक दृष्टि-भाषा-क्रिया (VLA) मॉडल प्रस्तावित करते हैं जो रोबोट हेरफेर के लिए अनुकरण अधिगम में वास्तविक रोबोट डेटा एकत्र करने की सीमाओं को दूर करने के लिए मानवीय दृष्टिकोण से प्राप्त वीडियो डेटा का उपयोग करता है। हम मानव वीडियो डेटा की समृद्ध दृश्य और कार्य जानकारी का उपयोग करके VLA मॉडल को प्रशिक्षित करते हैं, और व्युत्क्रम गतिकी और पुनर्लक्ष्यीकरण के माध्यम से मानवीय क्रियाओं को रोबोट क्रियाओं में परिवर्तित करते हैं। हम कुछ रोबोट हेरफेर प्रदर्शनों का उपयोग करके मॉडल को परिष्कृत करते हैं, और 'Ego Humanoid Manipulation Benchmark' नामक एक सिमुलेशन बेंचमार्क के माध्यम से विभिन्न द्विहस्त हेरफेर कार्यों पर इसके प्रदर्शन का मूल्यांकन करते हैं, यह प्रदर्शित करते हुए कि यह मौजूदा विधियों से बेहतर प्रदर्शन करता है।

Takeaways, Limitations

•

Takeaways:

◦

मानव वीडियो डेटा के बड़े पैमाने पर उपयोग के माध्यम से रोबोट हेरफेर अनुकरण सीखने की दक्षता में सुधार करना।

◦

विभिन्न दृश्यों और कार्यों में बेहतर सामान्यीकरण प्रदर्शन।

◦

व्युत्क्रम किनेमेटिक्स और पुनःलक्ष्यीकरण के माध्यम से मानव व्यवहार का रोबोट व्यवहार में प्रभावी अनुवाद।

◦

एक नया सिमुलेशन बेंचमार्क, ईगो ह्यूमनॉइड मैनिपुलेशन बेंचमार्क प्रस्तुत किया जा रहा है।

•

Limitations:

◦

मानव और रोबोट व्यवहार के बीच अंतर के कारण सटीकता में कमी की संभावना।

◦

वास्तविक रोबोट वातावरण में सामान्यीकरण प्रदर्शन का सत्यापन आवश्यक है।

◦

अहं मानवकृत हेरफेर बेंचमार्क की सीमाओं के कारण सामान्यीकरण प्रदर्शन में सीमाएं।

◦

रोबोट डेमो डेटा की छोटी मात्रा पर निर्भरता।

पीडीएफ देखें

Made with Slashpage

दैनिक अर्क्सिव

EgoVLA: अहंकारी मानव वीडियो से दृष्टि-भाषा-क्रिया मॉडल सीखना

लेखक

रूपरेखा

Takeaways, Limitations