[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वीटा: विजन-टू-एक्शन फ्लो मैचिंग पॉलिसी

Created by
  • Haebom

लेखक

डेचेन गाओ, बोकी झाओ, एंड्रयू ली, इयान चुआंग, हंचू झोउ, हैंग वांग, झे झाओ, जुनशान झांग, इमान सोल्तानी

रूपरेखा

VITA एक दृष्टि-क्रिया प्रवाह मिलान नीति है जो अव्यक्त दृश्य अभ्यावेदन को अव्यक्त क्रियाओं में परिवर्तित करके दृश्य-प्रेरक नियंत्रण करती है। मौजूदा प्रवाह मिलान और प्रसार नीतियाँ गॉसियन नॉइज़ जैसे मानक स्रोत वितरणों से नमूना लेती हैं और दृश्य सूचना पर क्रिया निर्माण की शर्त के लिए क्रॉस-अटेंशन जैसे अतिरिक्त कंडीशनिंग तंत्रों की आवश्यकता होती है, जिससे अस्थायी और स्थानिक ओवरहेड्स उत्पन्न होते हैं। VITA एक नवीन प्रतिमान प्रस्तुत करता है जो अव्यक्त छवियों को प्रवाह स्रोतों के रूप में मानता है, अलग-अलग कंडीशनिंग मॉड्यूल को समाप्त करता है और जनरेटिव मॉडलिंग क्षमताओं को बनाए रखते हुए दृष्टि से क्रिया तक एक अद्वितीय मैपिंग सीखता है। दृष्टि और क्रिया जैसे मौलिक रूप से भिन्न तौर-तरीकों के बीच प्रवाह सीखना चुनौतीपूर्ण है क्योंकि विरल क्रिया डेटा में अर्थ संरचना का अभाव होता है और उच्च-आयामी दृश्य अभ्यावेदन और अपरिष्कृत क्रियाओं के बीच आयामी बेमेल होता है। इस समस्या का समाधान करने के लिए, हम एक ऑटोएनकोडर के माध्यम से प्रवाह मिलान लक्ष्य के रूप में एक संरचित क्रिया अव्यक्त स्थान उत्पन्न करते हैं और दृश्य अभ्यावेदन के रूप से मिलान करने के लिए अपरिष्कृत क्रियाओं का अपसैंपल करते हैं। महत्वपूर्ण रूप से, हम एनकोडर लक्ष्य और अंतिम क्रिया आउटपुट, दोनों का उपयोग करके प्रवाह सुप्त डिकोडिंग के माध्यम से प्रवाह मिलान की निगरानी करते हैं, और प्रभावी एंड-टू-एंड लर्निंग के लिए अनुक्रमिक प्रवाह-मिलान ODE समाधान चरण के माध्यम से क्रिया पुनर्निर्माण हानि को प्रतिप्रसारित करते हैं। एक सरल MLP परत के रूप में कार्यान्वित, VITA का मूल्यांकन जटिल द्विहस्त कार्यों पर किया जाता है, जिसमें ALOHA प्लेटफ़ॉर्म पर पाँच सिम्युलेटेड और दो वास्तविक-विश्व कार्य शामिल हैं। अपनी सरलता के बावजूद, केवल-MLP VITA, अत्याधुनिक जनरेटिव नीतियों से बेहतर प्रदर्शन करता है या उनके बराबर है, जबकि मौजूदा प्रवाह-मिलान नीतियों की तुलना में अनुमान विलंबता को 50-130% तक कम करता है। हमारी सर्वोत्तम जानकारी के अनुसार, VITA पहली MLP-केवल प्रवाह-मिलान नीति है जो ALOHA बेंचमार्क जैसे जटिल द्विहस्त कार्यों को हल कर सकती है।

Takeaways, Limitations

Takeaways:
हम एक नवीन प्रवाह मिलान विधि का प्रस्ताव करते हैं जो प्रत्यक्ष रूप से अव्यक्त दृश्य सूचना को अव्यक्त क्रियाओं से जोड़ती है, जिससे मौजूदा विधियों की अतिरिक्त कंडीशनिंग तंत्र और जटिल संरचनाओं को समाप्त किया जा सकता है और दक्षता में सुधार किया जा सकता है।
केवल एमएलपी का उपयोग करके जटिल द्वि-हस्त हेरफेर कार्यों को सफलतापूर्वक निष्पादित करके, हम अपने मॉडल की सरलता और दक्षता को प्रदर्शित करते हैं।
हम मौजूदा अत्याधुनिक जनरेटिव नीतियों की तुलना में अनुमान गति में 50-130% सुधार प्राप्त करते हैं।
Limitations:
चूंकि इसका मूल्यांकन केवल ALOHA प्लेटफॉर्म पर विशिष्ट कार्यों के लिए किया गया था, इसलिए अन्य कार्यों या प्लेटफॉर्म पर सामान्यीकरण प्रदर्शन के लिए आगे के अध्ययन की आवश्यकता है।
ऑटोएनकोडर का उपयोग करके संरचित अव्यक्त स्थान उत्पन्न करते समय होने वाली सूचना हानि पर विचार करना आवश्यक है।
केवल एमएलपी का उपयोग करने वाली इसकी सरल संरचना के कारण, अधिक जटिल और विविध कार्यों के लिए इसकी सामान्यीकरण क्षमता सीमित हो सकती है।
👍