दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आरएल-प्लस: हाइब्रिड-पॉलिसी ऑप्टिमाइज़ेशन के साथ सुदृढीकरण सीखने में एलएलएम की क्षमता सीमा के पतन का मुकाबला करना

Created by
  • Haebom

लेखक

यिहोंग डोंग, ज़ू जियांग, योंगडिंग ताओ, हुआन्यू लियू, केची झांग, लिली मौ, रोंगयु काओ, यिंगवेई मा, जुए चेन, बिनहुआ ली, ज़ी जिन, फ़ेई हुआंग, योंगबिन ली, जीई ली

रूपरेखा

यह शोधपत्र इस बात पर प्रकाश डालता है कि सत्यापन योग्य पुरस्कारों के साथ सुदृढीकरण अधिगम (RLVR) ने बड़े पैमाने के भाषा मॉडलों (LLM) की जटिल अनुमान क्षमताओं में सुधार किया है। हालाँकि, अपनी अंतर्निहित नीति-आधारित रणनीति, LLM के विशाल क्रिया क्षेत्र और विरल पुरस्कारों के कारण, यह LLM की अंतर्निहित सीमाओं को पार करने में कठिनाई महसूस करता है। इसके अलावा, RLVR LLM की क्षमता सीमा को ध्वस्त कर सकता है, जिससे LLM का समस्या-समाधान दायरा सीमित हो जाता है। इस समस्या के समाधान के लिए, यह शोधपत्र RL-PLUS का प्रस्ताव करता है, जो एक नवीन संकर नीति अनुकूलन दृष्टिकोण है जो आंतरिक और बाह्य डेटा को सहक्रियात्मक रूप से संयोजित करके अधिक सुदृढ़ अनुमान क्षमताएँ प्राप्त करता है और अंतर्निहित मॉडल की सीमाओं को दूर करता है। RL-PLUS दो प्रमुख घटकों को एकीकृत करता है: बाह्य डेटा के वितरण संबंधी बेमेल को दूर करने के लिए बहु-महत्व नमूनाकरण, और उच्च-मूल्य, अनन्वेषित अनुमान पथों पर मॉडल का मार्गदर्शन करने के लिए एक अन्वेषण-आधारित लाभ फलन। सैद्धांतिक विश्लेषण और व्यापक प्रयोगों के माध्यम से, यह शोधपत्र प्रस्तावित दृष्टिकोण की श्रेष्ठता और सामान्यीकरण क्षमता को प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
आरएल-प्लस छह गणितीय अनुमान मानकों पर अत्याधुनिक प्रदर्शन प्राप्त करता है, जो मौजूदा आरएलवीआर विधियों से बेहतर प्रदर्शन करता है।
इसने छह आउट-ऑफ-डिस्ट्रीब्यूशन अनुमान कार्यों पर उत्कृष्ट प्रदर्शन दिखाया।
हमने विभिन्न मॉडल परिवारों में लगातार और महत्वपूर्ण प्रदर्शन सुधार देखा, जिसमें औसत सापेक्ष सुधार 69.2% तक पहुंच गया।
आरएल-प्लस क्षमता सीमा पतन समस्या को प्रभावी ढंग से हल करता है।
Limitations:
यह शोधपत्र RL-PLUS के __T63008_____ को स्पष्ट रूप से संबोधित नहीं करता है। विशिष्ट __T63009_____ को स्पष्ट करने के लिए और अधिक शोध की आवश्यकता है। उदाहरण के लिए, बहु-महत्व नमूनाकरण और खोज-आधारित लाभ फलनों की प्रभावशीलता का और अधिक विश्लेषण आवश्यक हो सकता है। इसके अलावा, विशिष्ट समस्या प्रकारों या LLM आर्किटेक्चर के लिए सामान्यीकरण की सीमाएँ हो सकती हैं।
👍