यह शोधपत्र मशीन लर्निंग में ऑफ़लाइन अधिकतम एन्ट्रॉपी नियमन व्युत्क्रम सुदृढीकरण अधिगम (ऑफ़लाइन MaxEnt-IRL) समस्या, विशेष रूप से गतिशील असतत विकल्प (DDC) मॉडल का अध्ययन करता है। इसका लक्ष्य ऑफ़लाइन व्यवहार डेटा से एजेंट के व्यवहार को नियंत्रित करने वाले पुरस्कार या Q फ़ंक्शन को पुनर्प्राप्त करना है। हम रैखिक रूप से प्राचलित पुरस्कारों की प्रतिबंधात्मक धारणा के बिना इस समस्या को हल करने के लिए एक वैश्विक रूप से अभिसारी प्रवणता-आधारित विधि का प्रस्ताव करते हैं। इस अध्ययन की नवीनता एक अनुभवजन्य जोखिम न्यूनीकरण (ERM)-आधारित IRL/DDC ढाँचे को प्रस्तुत करने में निहित है जो बेलमैन समीकरण में स्पष्ट अवस्था संक्रमण संभाव्यता अनुमान की आवश्यकता को समाप्त करता है। इसके अलावा, प्रस्तावित विधि तंत्रिका नेटवर्क जैसी गैर-पैरामीट्रिक अनुमान तकनीकों के साथ संगत है। इसलिए, प्रस्तावित विधि में उच्च-आयामी, अनंत अवस्था स्थानों तक विस्तार की क्षमता है। इस अध्ययन की प्रमुख सैद्धांतिक अंतर्दृष्टि यह है कि बेलमैन अवशिष्ट पॉलीएक-लोजासिविज़ (PL) शर्त को संतुष्ट करता है, जो प्रबल उत्तलता से कमज़ोर है लेकिन तीव्र वैश्विक अभिसरण की गारंटी देने के लिए पर्याप्त है। सिंथेटिक प्रयोगों की एक श्रृंखला दर्शाती है कि प्रस्तावित विधि लगातार बेंचमार्क विधियों और अत्याधुनिक विकल्पों से बेहतर प्रदर्शन करती है।