दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अहं-दूरदर्शिता: बेहतर RL के लिए एजेंट-जागरूक अभ्यावेदन का स्व-पर्यवेक्षित शिक्षण

Created by
  • Haebom

लेखक

मैनुअल सेरा नून्स, अताबक देहबन, यियानिस डेमिरिस, जोस ई सैंटोस-विक्टर

रूपरेखा

यह शोधपत्र, डीप रीइन्फोर्समेंट लर्निंग (RL) की नमूना दक्षता समस्या के समाधान हेतु, मानव गति पूर्वानुमान से प्रेरित एक नवीन विधि, ईगो-फोरसाइट प्रस्तुत करता है। पारंपरिक RL की विशाल प्रशिक्षण डेटा आवश्यकताओं को पूरा करने के लिए, हम एक ऐसा दृष्टिकोण अपनाते हैं जो एजेंट और उसके परिवेश को एक-दूसरे से अलग करता है। हालाँकि, पिछले अध्ययनों के विपरीत, हम एजेंट-पर्यावरण अंतःक्रिया को एजेंट की गतिविधियों का उपयोग करके, बिना किसी पर्यवेक्षित संकेतों के, सीखते हैं। ईगो-फोरसाइट, दृश्य-मोटर पूर्वानुमानों के माध्यम से स्व-पर्यवेक्षित शिक्षण के माध्यम से एजेंट की बोध क्षमता को बढ़ाता है, जिससे वह नकली और वास्तविक दुनिया के रोबोट डेटा से एजेंट की गतिविधियों का पूर्वानुमान लगाने में सक्षम होता है। इसे मॉडल-मुक्त RL एल्गोरिदम के साथ एकीकृत करके, हम बेहतर नमूना दक्षता और प्रदर्शन प्रदर्शित करते हैं।

____T12260_____, ____T12261_____

Takeaways:
हम प्रदर्शित करते हैं कि आत्म-पर्यवेक्षित शिक्षण के माध्यम से एजेंट की संज्ञानात्मक क्षमता को बढ़ाकर सुदृढीकरण शिक्षण की नमूना दक्षता में सुधार किया जा सकता है।
हम मानव गति पूर्वानुमान क्षमताओं की नकल करके आरएल एल्गोरिदम के प्रदर्शन को बेहतर बनाने के लिए एक नया दृष्टिकोण प्रस्तुत करते हैं।
हमने न केवल सिमुलेशन वातावरण में बल्कि वास्तविक रोबोट डेटा में भी इसकी प्रभावशीलता को सत्यापित किया है, जिससे व्यवहार में इसकी प्रयोज्यता बढ़ गई है।
Limitations:
प्रस्तावित विधि की व्यापकता निर्धारित करने के लिए और अधिक शोध की आवश्यकता है। व्यापक परिवेशों और कार्यों में इसकी प्रयोज्यता को और अधिक प्रमाणित करने की आवश्यकता है।
वर्तमान में, इसे मॉडल-मुक्त आरएल एल्गोरिदम पर लागू किया गया है, लेकिन मॉडल-आधारित आरएल एल्गोरिदम के साथ एकीकरण और प्रदर्शन तुलना अध्ययन की आवश्यकता है।
वास्तविक दुनिया के रोबोटिक डेटा में प्रयोगात्मक पैमाना सीमित हो सकता है, तथा अधिक विविध और जटिल कार्यों पर प्रयोगों की आवश्यकता है।
👍