दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ऑफलाइन आरएलएआईएफ: एसएफओ के माध्यम से आरएल के लिए वीएलएम फीडबैक का संचालन

Created by
  • Haebom

लेखक

जैकब बेक

रूपरेखा

इस शोधपत्र में, हम अध्ययन करते हैं कि इंटरनेट-स्केल नियंत्रण डेटा की कमी के कारण सुदृढीकरण सीखने के एजेंटों को सामान्य बनाने में कठिनाई को दूर करने के लिए दृष्टि-भाषा मॉडल (वीएलएम) की छवि समझने की क्षमता का लाभ उठाकर सुदृढीकरण सीखने में एआई फीडबैक का उपयोग कैसे किया जाए। विशेष रूप से, हम ऑफ़लाइन सुदृढीकरण सीखने पर ध्यान केंद्रित करते हैं, और सबपाथ फ़िल्टरिंग ऑप्टिमाइज़ेशन (SFO) नामक एक नई पद्धति प्रस्तुत करते हैं। SFO पूरे पथ के बजाय उपपथों का उपयोग करके 'पहेली' को हल करता है, गैर-मार्कोव इनाम संकेतों को उत्पन्न करने के लिए VLM के दृश्य फीडबैक का उपयोग करता है, और जटिल RLHF-आधारित विधियों की तुलना में एक सरल लेकिन अधिक प्रभावी फ़िल्टरिंग और भार कार्रवाई प्रतिकृति योजना का उपयोग करता है। विशेष रूप से, सबपाथ फ़िल्टरिंग एक्शन प्रतिकृति (SFBC) एक पिछड़े फ़िल्टरिंग तंत्र को शामिल करके मजबूती में सुधार करता है जो विफलता से पहले उपपथों को हटा देता है।

Takeaways, Limitations

Takeaways:
हम वीएलएम की छवि समझ क्षमताओं का लाभ उठाकर ऑफ़लाइन सुदृढीकरण सीखने में एआई फीडबैक को प्रभावी ढंग से एकीकृत करने के लिए एक नवीन विधि (एसएफओ, एसएफबीसी) प्रस्तुत करते हैं।
उप-पथों का उपयोग करके, मौजूदा ऑफ़लाइन सुदृढीकरण सीखने की एक सीमा, 'टुकड़ा-फिटिंग समस्या' को कम करें।
गैर-मार्कोव पुरस्कार संकेतों का उपयोग करके वीएलएम से दृश्य फीडबैक का प्रभावी उपयोग।
हम एक सरल किन्तु प्रभावी फ़िल्टरिंग और भार व्यवहार प्रतिकृति दृष्टिकोण की श्रेष्ठता को प्रदर्शित करते हैं।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए अतिरिक्त प्रयोगों और विश्लेषण की आवश्यकता है।
विभिन्न वातावरणों और कार्यों के लिए प्रयोज्यता को सत्यापित करने की आवश्यकता है।
पश्चवर्ती फ़िल्टरिंग तंत्र के इष्टतम मापदंडों को निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
क्योंकि यह VLM से प्राप्त फीडबैक पर निर्भर करता है, इसलिए संभावना है कि यह VLM के प्रदर्शन द्वारा सीमित हो सकता है।
👍