दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ऑफ़लाइन व्युत्क्रम RL और गतिशील असतत विकल्प मॉडल के लिए एक अनुभवजन्य जोखिम न्यूनीकरण दृष्टिकोण

Created by
  • Haebom

लेखक

हनोक एच. कांग, हेमा योगनरसिम्हन, ललित जैन

रूपरेखा

यह शोधपत्र मशीन लर्निंग में ऑफ़लाइन अधिकतम एन्ट्रॉपी नियमन व्युत्क्रम सुदृढीकरण अधिगम (ऑफ़लाइन MaxEnt-IRL) समस्या, विशेष रूप से गतिशील असतत विकल्प (DDC) मॉडल का अध्ययन करता है। इसका लक्ष्य ऑफ़लाइन व्यवहार डेटा से एजेंट के व्यवहार को नियंत्रित करने वाले पुरस्कार या Q फ़ंक्शन को पुनर्प्राप्त करना है। हम रैखिक रूप से प्राचलित पुरस्कारों की प्रतिबंधात्मक धारणा के बिना इस समस्या को हल करने के लिए एक वैश्विक रूप से अभिसारी प्रवणता-आधारित विधि का प्रस्ताव करते हैं। इस अध्ययन की नवीनता एक अनुभवजन्य जोखिम न्यूनीकरण (ERM)-आधारित IRL/DDC ढाँचे को प्रस्तुत करने में निहित है जो बेलमैन समीकरण में स्पष्ट अवस्था संक्रमण संभाव्यता अनुमान की आवश्यकता को समाप्त करता है। इसके अलावा, प्रस्तावित विधि तंत्रिका नेटवर्क जैसी गैर-पैरामीट्रिक अनुमान तकनीकों के साथ संगत है। इसलिए, प्रस्तावित विधि में उच्च-आयामी, अनंत अवस्था स्थानों तक विस्तार की क्षमता है। इस अध्ययन की प्रमुख सैद्धांतिक अंतर्दृष्टि यह है कि बेलमैन अवशिष्ट पॉलीएक-लोजासिविज़ (PL) शर्त को संतुष्ट करता है, जो प्रबल उत्तलता से कमज़ोर है लेकिन तीव्र वैश्विक अभिसरण की गारंटी देने के लिए पर्याप्त है। सिंथेटिक प्रयोगों की एक श्रृंखला दर्शाती है कि प्रस्तावित विधि लगातार बेंचमार्क विधियों और अत्याधुनिक विकल्पों से बेहतर प्रदर्शन करती है।

Takeaways, Limitations

Takeaways:
हम रैखिक रूप से पैरामीटरयुक्त पुरस्कारों की प्रतिबंधात्मक धारणा के बिना डीडीसी मॉडल का अनुमान लगाने के लिए एक वैश्विक रूप से अभिसारी ग्रेडिएंट-आधारित विधि प्रस्तुत करते हैं।
एक ईआरएम-आधारित आईआरएल/डीडीसी फ्रेमवर्क प्रस्तुत किया जा रहा है, जिसमें स्पष्ट अवस्था संक्रमण संभावना अनुमान की आवश्यकता नहीं होती है।
यह तंत्रिका नेटवर्क जैसे गैर-पैरामीट्रिक आकलन तकनीकों के साथ संगतता के माध्यम से उच्च-आयामी, अनंत राज्य स्थानों तक विस्तार की संभावना का सुझाव देता है।
बेलमैन अवशिष्ट की पीएल स्थिति को संतुष्ट करके तेजी से वैश्विक अभिसरण सुनिश्चित करना।
सिंथेटिक प्रयोगों ने मौजूदा तरीकों की तुलना में बेहतर प्रदर्शन को सत्यापित किया।
Limitations:
केवल सिंथेटिक डेटा पर प्रयोगात्मक परिणाम प्रस्तुत किए गए हैं, इसलिए वास्तविक डेटासेट पर सामान्यीकरण प्रदर्शन के लिए आगे सत्यापन की आवश्यकता है।
यह निर्धारित करने के लिए कि क्या पीएल शर्त संतुष्टि सभी डीडीसी समस्याओं पर लागू होती है, आगे सैद्धांतिक शोध की आवश्यकता है।
उच्च-आयामी, अनंत अवस्था स्थानों में मापनीयता की संभावना केवल सैद्धांतिक रूप से सुझाई गई है, लेकिन वास्तविक कार्यान्वयन और प्रदर्शन मूल्यांकन के लिए और अधिक शोध की आवश्यकता है।
👍