दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विज़न लैंग्वेज मॉडल फीडबैक से वास्तविक दुनिया में ऑफ़लाइन सुदृढीकरण सीखना

Created by
  • Haebom

लेखक

श्रेयस वेंकटरमन, युफेई वांग, ज़ियू वांग, नवीन श्रीराम रवि, जैकरी एरिकसन, डेविड हेल्ड

रूपरेखा

यह शोधपत्र ऑफ़लाइन सुदृढीकरण अधिगम (ओआरएल) पर चर्चा करता है, जो ऑनलाइन सहभागिता के बिना पूर्व-संग्रहित, उप-इष्टतम डेटासेट से नीति अधिगम को सक्षम बनाता है। यह दृष्टिकोण विशेष रूप से वास्तविक दुनिया के रोबोटों या सुरक्षा-महत्वपूर्ण परिदृश्यों के लिए उपयुक्त है जहाँ ऑनलाइन डेटा संग्रह या विशेषज्ञ प्रदर्शन धीमे, महंगे और खतरनाक होते हैं। अधिकांश मौजूदा ऑफ़लाइन सुदृढीकरण अधिगम अध्ययन यह मानते हैं कि डेटासेट पहले से ही कार्य पुरस्कारों से चिह्नित है, लेकिन इसके लिए महत्वपूर्ण प्रयास की आवश्यकता होती है, विशेष रूप से वास्तविक दुनिया के परिदृश्यों में जहाँ आधारभूत सत्य का निर्धारण करना कठिन होता है। इस शोधपत्र में, हम आरएल-वीएलएम-एफ पर आधारित एक नवीन प्रणाली का प्रस्ताव करते हैं, जो एक दृष्टि-भाषा मॉडल और कार्यों के पाठ्य विवरणों से प्राप्त वरीयता प्रतिक्रिया का उपयोग करके ऑफ़लाइन डेटासेट के लिए स्वचालित रूप से पुरस्कार लेबल उत्पन्न करती है। यह विधि लेबल किए गए पुरस्कार डेटासेट के साथ ऑफ़लाइन सुदृढीकरण अधिगम (आरएल) का उपयोग करके नीतियों का प्रशिक्षण देती है। हम एक वास्तविक रोबोट को तैयार करने के जटिल कार्य में इसकी प्रयोज्यता प्रदर्शित करते हैं। हम पहले एक दृष्टि-भाषा मॉडल का उपयोग करके एक उप-इष्टतम ऑफ़लाइन डेटासेट से पुरस्कार फलन सीखते हैं, और फिर सीखे गए पुरस्कारों का उपयोग अंतर्निहित क्यू अधिगम के माध्यम से एक प्रभावी ड्रेसिंग नीति विकसित करने के लिए करते हैं। यह कठोर और विकृत वस्तुओं के हेरफेर से जुड़े सिमुलेशन कार्यों में भी अच्छा प्रदर्शन करता है, और व्यवहार क्लोनिंग और व्युत्क्रम सुदृढीकरण अधिगम (RL) जैसे आधारभूत कार्यों से काफ़ी बेहतर प्रदर्शन करता है। संक्षेप में, हम एक ऐसी नवीन प्रणाली का प्रस्ताव करते हैं जो बिना लेबल वाले, कम-इष्टतम ऑफ़लाइन डेटासेट से स्वचालित रिवॉर्ड लेबलिंग और नीति अधिगम को सक्षम बनाती है।

Takeaways, Limitations

Takeaways:
हम दृष्टि-भाषा मॉडल का उपयोग करके ऑफ़लाइन डेटासेट के लिए स्वचालित रूप से पुरस्कार लेबल उत्पन्न करने के लिए एक नवीन विधि प्रस्तुत करते हैं, जिससे ऑफ़लाइन सुदृढीकरण सीखने की वास्तविक दुनिया में प्रयोज्यता बढ़ जाती है।
यह वास्तविक रोबोट ड्रेसिंग कार्यों और सिमुलेशन कार्यों दोनों में मौजूदा तरीकों से बेहतर प्रदर्शन करता है।
हम जटिल कार्यों के लिए ऑफ़लाइन सुदृढीकरण सीखने की प्रभावशीलता को प्रदर्शित करते हैं।
Limitations:
यह विज़न-लैंग्वेज मॉडल के प्रदर्शन पर निर्भर करता है, और मॉडल के प्रदर्शन में गिरावट पूरे सिस्टम के प्रदर्शन को प्रभावित कर सकती है।
प्रयुक्त दृष्टि-भाषा मॉडल की सामान्यीकरण क्षमता का और अधिक सत्यापन आवश्यक है।
विशिष्ट कार्यों के लिए पुरस्कार कार्य सीखने की सामान्यता को और बेहतर बनाने के लिए अनुसंधान की आवश्यकता है।
वास्तविक दुनिया के डेटासेट की विविधता और जटिलता के आधार पर प्रदर्शन भिन्न हो सकता है।
👍