दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

10 डेमो से सीखें: उन्मुख सामर्थ्य फ़्रेमों के साथ सामान्यीकरण योग्य और नमूना-कुशल नीति सीखना

Created by
  • Haebom

लेखक

कृष्ण राणा, जाद अबू-चक्र, सौरव गर्ग, रॉबर्ट ली, इयान रीड, निको सुएन्डरहॉफ

रूपरेखा

यह शोधपत्र इस बात पर प्रकाश डालता है कि अनुकरण अधिगम कुशल रोबोट व्यवहार को सक्षम बनाता है, लेकिन यह कम नमूना दक्षता और सीमित सामान्यीकरण से जूझता है, जिससे दीर्घकालिक, बहु-वस्तु कार्यों को संबोधित करना मुश्किल हो जाता है। मौजूदा विधियों को संभावित कार्य विविधताओं को संबोधित करने के लिए कई प्रदर्शनों की आवश्यकता होती है, जिससे वे वास्तविक दुनिया के अनुप्रयोगों के लिए महंगी और अव्यावहारिक हो जाती हैं। यह अध्ययन केवल 10 प्रदर्शनों के साथ स्थानिक और श्रेणी सामान्यीकरण में सुधार और नीतियों को कुशलतापूर्वक प्रशिक्षित करने के लिए, उन्मुख सामर्थ्य फ़्रेम, अवस्था और क्रिया स्थानों का एक संरचित निरूपण, प्रस्तुत करता है। इससे भी महत्वपूर्ण बात यह है कि यह अमूर्तता दीर्घकालिक, बहु-वस्तु कार्यों को संबोधित करने के लिए स्वतंत्र रूप से प्रशिक्षित उप-नीतियों के संरचनात्मक सामान्यीकरण को सक्षम बनाती है। उप-नीतियों के बीच सुचारू संक्रमण को सुगम बनाने के लिए, हम स्व-प्रगति पूर्वानुमान की अवधारणा प्रस्तुत करते हैं, जो सीधे प्रशिक्षण प्रदर्शनों की अवधि से प्राप्त होती है। बहु-चरणीय, बहु-वस्तु अंतःक्रियाओं वाले तीन वास्तविक दुनिया के कार्यों पर किए गए प्रयोगों से पता चलता है कि नीतियाँ, कम मात्रा में डेटा के बावजूद, अदृश्य वस्तु दिखावट, ज्यामितीय आकृतियों और स्थानिक व्यवस्थाओं के लिए मजबूती से सामान्यीकृत होती हैं, और व्यापक प्रशिक्षण डेटा पर निर्भर हुए बिना उच्च सफलता दर प्राप्त करती हैं।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि दिशात्मक सामर्थ्य फ्रेम का उपयोग करके केवल कुछ ही डेमो (10) के साथ कुशल नीति सीखना संभव है।
स्थान और श्रेणियों के भीतर बेहतर सामान्यीकरण प्रदर्शन।
स्वतंत्र रूप से प्रशिक्षित उप-नीतियों के रचनात्मक सामान्यीकरण के माध्यम से दीर्घकालिक, बहु-वस्तु कार्यों को हल करना।
स्व-प्रगति पूर्वानुमान उप-नीतियों के बीच सुचारू संक्रमण को सक्षम बनाता है।
वास्तविक दुनिया के कार्यों में उच्च सफलता दर प्राप्त करना और सामान्यीकरण प्रदर्शन को सत्यापित करना।
Limitations:
केवल सीमित संख्या में वास्तविक दुनिया के कार्यों (तीन) के प्रयोगात्मक परिणाम प्रस्तुत किए गए हैं।
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि विभिन्न वातावरणों और कार्यों में सामान्यीकरण प्रदर्शन को कितनी अच्छी तरह बनाए रखा जा सकता है।
स्व-प्रगति भविष्यवाणियों की सटीकता और विश्वसनीयता पर आगे विश्लेषण की आवश्यकता है।
प्रस्तावित विधि की कम्प्यूटेशनल लागत और जटिलता के विश्लेषण का अभाव।
👍