[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

EgoVLA: अहंकारी मानव वीडियो से दृष्टि-भाषा-क्रिया मॉडल सीखना

Created by
  • Haebom

लेखक

रुइहान यांग, किनक्सी यू, येचेंग वू, रुई यान, बोरुई ली, एन-चिह चेंग, ज़ुएयान ज़ू, युन्हाओ फ़ेंग, होंगक्सू यिन, सिफ़ेई लियू, सोंग हान, याओ लू, ज़ियाओलोंग वांग

रूपरेखा

इस शोधपत्र में, हम EgoVLA, एक दृष्टि-भाषा-क्रिया (VLA) मॉडल प्रस्तावित करते हैं जो रोबोट हेरफेर के लिए अनुकरण अधिगम में वास्तविक रोबोट डेटा एकत्र करने की सीमाओं को दूर करने के लिए मानवीय दृष्टिकोण से प्राप्त वीडियो डेटा का उपयोग करता है। हम मानव वीडियो डेटा की समृद्ध दृश्य और कार्य जानकारी का उपयोग करके VLA मॉडल को प्रशिक्षित करते हैं, और व्युत्क्रम गतिकी और पुनर्लक्ष्यीकरण के माध्यम से मानवीय क्रियाओं को रोबोट क्रियाओं में परिवर्तित करते हैं। हम कुछ रोबोट हेरफेर प्रदर्शनों का उपयोग करके मॉडल को परिष्कृत करते हैं, और 'Ego Humanoid Manipulation Benchmark' नामक एक सिमुलेशन बेंचमार्क के माध्यम से विभिन्न द्विहस्त हेरफेर कार्यों पर इसके प्रदर्शन का मूल्यांकन करते हैं, यह प्रदर्शित करते हुए कि यह मौजूदा विधियों से बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
मानव वीडियो डेटा के बड़े पैमाने पर उपयोग के माध्यम से रोबोट हेरफेर अनुकरण सीखने की दक्षता में सुधार करना।
विभिन्न दृश्यों और कार्यों में बेहतर सामान्यीकरण प्रदर्शन।
व्युत्क्रम किनेमेटिक्स और पुनःलक्ष्यीकरण के माध्यम से मानव व्यवहार का रोबोट व्यवहार में प्रभावी अनुवाद।
एक नया सिमुलेशन बेंचमार्क, ईगो ह्यूमनॉइड मैनिपुलेशन बेंचमार्क प्रस्तुत किया जा रहा है।
Limitations:
मानव और रोबोट व्यवहार के बीच अंतर के कारण सटीकता में कमी की संभावना।
वास्तविक रोबोट वातावरण में सामान्यीकरण प्रदर्शन का सत्यापन आवश्यक है।
अहं मानवकृत हेरफेर बेंचमार्क की सीमाओं के कारण सामान्यीकरण प्रदर्शन में सीमाएं।
रोबोट डेमो डेटा की छोटी मात्रा पर निर्भरता।
👍