यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
इस शोधपत्र में, हम सत्यापन योग्य पुरस्कारों के साथ सुदृढीकरण सीखने (RLVR) की समस्या को हल करने के लिए एक नवीन कठिनाई-जागरूक सुदृढीकरण सीखने का ढाँचा, निर्देशित हाइब्रिड नीति अनुकूलन (GHPO) प्रस्तुत करते हैं। यह बड़े पैमाने के भाषा मॉडलों (LLM) की जटिल अनुमान क्षमता में सुधार हेतु एक सुदृढीकरण सीखने की विधि है। GHPO अनुकूली शीघ्र सुधार के माध्यम से कार्य की कठिनाई को गतिशील रूप से समायोजित करके, मॉडल की वर्तमान क्षमता से परे समस्याओं के लिए प्रत्यक्ष अनुकरण सीखने को लागू करके, और प्रबंधनीय समस्याओं के लिए अन्वेषण-आधारित सुदृढीकरण सीखने को लागू करके एक कुशल सीखने की प्रक्रिया बनाता है। हम प्रयोगात्मक रूप से प्रदर्शित करते हैं कि हमारा दृष्टिकोण छह गणितीय मानदंडों पर मौजूदा सुदृढीकरण सीखने और पाठ्यक्रम सीखने की तकनीकों की तुलना में सीखने की स्थिरता और अंतिम अनुमान प्रदर्शन, दोनों में औसतन 5% सुधार करता है।
Takeaways, Limitations
•
Takeaways:
◦
हम दिखाते हैं कि अनुकूली शीघ्र सुधार के माध्यम से गतिशील कठिनाई समायोजन एलएलएम की तर्क क्षमता में सुधार करने में प्रभावी है।
◦
हम यह प्रदर्शित करते हैं कि सीखने की स्थिरता और प्रदर्शन के संदर्भ में जीएचपीओ मौजूदा सुदृढीकरण सीखने और पाठ्यक्रम सीखने के तरीकों से बेहतर है।
◦
छोटे एलएलएम में कुशल शिक्षण के लिए एक नया दृष्टिकोण प्रस्तुत करना।
◦
गणितीय समस्या-समाधान कौशल में सुधार करने में पर्याप्त प्रदर्शन सुधार प्रदर्शित करता है।
•
Limitations:
◦
प्रस्तुत बेंचमार्क गणितीय समस्याओं तक सीमित है, तथा अन्य क्षेत्रों में इसकी सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
◦
जीएचपीओ की अनुकूली त्वरित सुधार रणनीति की सामान्य प्रयोज्यता और सीमाओं पर आगे विश्लेषण की आवश्यकता है।
◦
विभिन्न आकारों के एलएलएम के लिए प्रयोगात्मक परिणामों का अभाव है।
◦
जीएचपीओ की कम्प्यूटेशनल लागत और दक्षता का आगे विश्लेषण आवश्यक है।