यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र इस बात पर प्रकाश डालता है कि सत्यापन योग्य पुरस्कारों के साथ सुदृढीकरण अधिगम (RLVR) ने बड़े पैमाने के भाषा मॉडलों (LLM) की जटिल अनुमान क्षमताओं में सुधार किया है। हालाँकि, अपनी अंतर्निहित नीति-आधारित रणनीति, LLM के विशाल क्रिया क्षेत्र और विरल पुरस्कारों के कारण, यह LLM की अंतर्निहित सीमाओं को पार करने में कठिनाई महसूस करता है। इसके अलावा, RLVR LLM की क्षमता सीमा को ध्वस्त कर सकता है, जिससे LLM का समस्या-समाधान दायरा सीमित हो जाता है। इस समस्या के समाधान के लिए, यह शोधपत्र RL-PLUS का प्रस्ताव करता है, जो एक नवीन संकर नीति अनुकूलन दृष्टिकोण है जो आंतरिक और बाह्य डेटा को सहक्रियात्मक रूप से संयोजित करके अधिक सुदृढ़ अनुमान क्षमताएँ प्राप्त करता है और अंतर्निहित मॉडल की सीमाओं को दूर करता है। RL-PLUS दो प्रमुख घटकों को एकीकृत करता है: बाह्य डेटा के वितरण संबंधी बेमेल को दूर करने के लिए बहु-महत्व नमूनाकरण, और उच्च-मूल्य, अनन्वेषित अनुमान पथों पर मॉडल का मार्गदर्शन करने के लिए एक अन्वेषण-आधारित लाभ फलन। सैद्धांतिक विश्लेषण और व्यापक प्रयोगों के माध्यम से, यह शोधपत्र प्रस्तावित दृष्टिकोण की श्रेष्ठता और सामान्यीकरण क्षमता को प्रदर्शित करता है।
Takeaways, Limitations
•
Takeaways:
◦
आरएल-प्लस छह गणितीय अनुमान मानकों पर अत्याधुनिक प्रदर्शन प्राप्त करता है, जो मौजूदा आरएलवीआर विधियों से बेहतर प्रदर्शन करता है।
◦
इसने छह आउट-ऑफ-डिस्ट्रीब्यूशन अनुमान कार्यों पर उत्कृष्ट प्रदर्शन दिखाया।
◦
हमने विभिन्न मॉडल परिवारों में लगातार और महत्वपूर्ण प्रदर्शन सुधार देखा, जिसमें औसत सापेक्ष सुधार 69.2% तक पहुंच गया।
◦
आरएल-प्लस क्षमता सीमा पतन समस्या को प्रभावी ढंग से हल करता है।
•
Limitations:
◦
यह शोधपत्र RL-PLUS के __T63008_____ को स्पष्ट रूप से संबोधित नहीं करता है। विशिष्ट __T63009_____ को स्पष्ट करने के लिए और अधिक शोध की आवश्यकता है। उदाहरण के लिए, बहु-महत्व नमूनाकरण और खोज-आधारित लाभ फलनों की प्रभावशीलता का और अधिक विश्लेषण आवश्यक हो सकता है। इसके अलावा, विशिष्ट समस्या प्रकारों या LLM आर्किटेक्चर के लिए सामान्यीकरण की सीमाएँ हो सकती हैं।