[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विज़ुओमोटर अनुकरण अधिगम के लिए ऑब्जेक्ट-केंद्रित कीपॉइंट व्युत्क्रम नीति के साथ आउट-ऑफ-डिस्ट्रीब्यूशन पुनर्प्राप्ति

Created by
  • Haebom

लेखक

जॉर्ज जियायुआन गाओ, तियानयु ली, नादिया फिगुएरोआ

रूपरेखा

इस पत्र में, हम विज़ुओमोटर नीति अधिगम में वितरण-बाह्य (OOD) स्थितियों की चुनौतियों का समाधान करने के लिए एक वस्तु-केंद्रित पुनर्प्राप्ति (OCR) ढाँचा प्रस्तावित करते हैं। जबकि मौजूदा क्रिया प्रतिकृति (BC) विधियाँ बड़ी मात्रा में लेबल किए गए डेटा पर अत्यधिक निर्भर करती हैं और अपरिचित स्थानिक स्थितियों में विफल हो जाती हैं, OCR एक पुनर्प्राप्ति नीति सीखता है जिसमें मूल प्रशिक्षण डेटा के ऑब्जेक्ट कीपॉइंट मैनिफोल्ड ग्रेडिएंट से अनुमानित एक व्युत्क्रम नीति शामिल होती है, बिना अतिरिक्त डेटा एकत्र किए। यह पुनर्प्राप्ति नीति, विशिष्ट विधि की परवाह किए बिना, किसी भी आधारभूत विज़ुओमोटर BC नीति के लिए एक सरल ऐड-ऑन के रूप में कार्य करती है, और OOD स्थितियों में भी कार्य की सफलता सुनिश्चित करने के लिए सिस्टम को प्रशिक्षण वितरण पर वापस निर्देशित करती है। सिमुलेशन और वास्तविक रोबोट प्रयोगों, दोनों में, हम OOD में आधारभूत नीति की तुलना में 77.7% तक सुधार प्रदर्शित करते हैं, और निरंतर अधिगम के लिए स्वचालित रूप से डेमो एकत्र करने की OCR की क्षमता को भी प्रदर्शित करते हैं। हमारा तर्क है कि यह ढाँचा वास्तविक वातावरण में विज़ुओमोटर नीतियों की मजबूती में सुधार की दिशा में एक कदम आगे है।

Takeaways, Limitations

Takeaways:
OOD स्थितियों में विज़ुओमोटर नीतियों की मजबूती में सुधार करने के लिए एक नया ढांचा प्रस्तुत किया गया है।
अतिरिक्त डेटा एकत्रित किए बिना मौजूदा डेटा का लाभ उठाकर OOD प्रदर्शन में सुधार करें।
विस्तारशीलता जिसे मौजूदा बीसी नीति में एक अतिरिक्त मॉड्यूल के रूप में लागू किया जा सकता है।
निरंतर सीखने के लिए डेमो के स्वायत्त संग्रह की संभावना प्रस्तुत करना।
सिमुलेशन और वास्तविक रोबोट प्रयोगों के माध्यम से प्रभावशीलता सत्यापित की गई।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
विभिन्न वस्तुओं और कार्यों के लिए प्रयोज्यता का मूल्यांकन करने की आवश्यकता है।
सीखने की पुनर्प्राप्ति नीतियों की कम्प्यूटेशनल लागत और दक्षता का विश्लेषण आवश्यक है।
वास्तविक दुनिया के जटिल वातावरण में प्रदर्शन में गिरावट की संभावना।
👍