यह शोधपत्र ऑफ़लाइन सुदृढीकरण अधिगम (ओआरएल) पर चर्चा करता है, जो ऑनलाइन सहभागिता के बिना पूर्व-संग्रहित, उप-इष्टतम डेटासेट से नीति अधिगम को सक्षम बनाता है। यह दृष्टिकोण विशेष रूप से वास्तविक दुनिया के रोबोटों या सुरक्षा-महत्वपूर्ण परिदृश्यों के लिए उपयुक्त है जहाँ ऑनलाइन डेटा संग्रह या विशेषज्ञ प्रदर्शन धीमे, महंगे और खतरनाक होते हैं। अधिकांश मौजूदा ऑफ़लाइन सुदृढीकरण अधिगम अध्ययन यह मानते हैं कि डेटासेट पहले से ही कार्य पुरस्कारों से चिह्नित है, लेकिन इसके लिए महत्वपूर्ण प्रयास की आवश्यकता होती है, विशेष रूप से वास्तविक दुनिया के परिदृश्यों में जहाँ आधारभूत सत्य का निर्धारण करना कठिन होता है। इस शोधपत्र में, हम आरएल-वीएलएम-एफ पर आधारित एक नवीन प्रणाली का प्रस्ताव करते हैं, जो एक दृष्टि-भाषा मॉडल और कार्यों के पाठ्य विवरणों से प्राप्त वरीयता प्रतिक्रिया का उपयोग करके ऑफ़लाइन डेटासेट के लिए स्वचालित रूप से पुरस्कार लेबल उत्पन्न करती है। यह विधि लेबल किए गए पुरस्कार डेटासेट के साथ ऑफ़लाइन सुदृढीकरण अधिगम (आरएल) का उपयोग करके नीतियों का प्रशिक्षण देती है। हम एक वास्तविक रोबोट को तैयार करने के जटिल कार्य में इसकी प्रयोज्यता प्रदर्शित करते हैं। हम पहले एक दृष्टि-भाषा मॉडल का उपयोग करके एक उप-इष्टतम ऑफ़लाइन डेटासेट से पुरस्कार फलन सीखते हैं, और फिर सीखे गए पुरस्कारों का उपयोग अंतर्निहित क्यू अधिगम के माध्यम से एक प्रभावी ड्रेसिंग नीति विकसित करने के लिए करते हैं। यह कठोर और विकृत वस्तुओं के हेरफेर से जुड़े सिमुलेशन कार्यों में भी अच्छा प्रदर्शन करता है, और व्यवहार क्लोनिंग और व्युत्क्रम सुदृढीकरण अधिगम (RL) जैसे आधारभूत कार्यों से काफ़ी बेहतर प्रदर्शन करता है। संक्षेप में, हम एक ऐसी नवीन प्रणाली का प्रस्ताव करते हैं जो बिना लेबल वाले, कम-इष्टतम ऑफ़लाइन डेटासेट से स्वचालित रिवॉर्ड लेबलिंग और नीति अधिगम को सक्षम बनाती है।