[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

जीएचपीओ: स्थिर और कुशल एलएलएम सुदृढीकरण सीखने के लिए अनुकूली मार्गदर्शन

Created by
  • Haebom

लेखक

ज़िरू लियू, चेंग गोंग, ज़िन्यू फू, याओफ़ांग लियू, रैन चेन, शौबो हू, सुइयुन झांग, रुई लियू, किंगफू झांग, डंडन तू

रूपरेखा

इस शोधपत्र में, हम सत्यापन योग्य पुरस्कारों के साथ सुदृढीकरण सीखने (RLVR) की समस्या को हल करने के लिए एक नवीन कठिनाई-जागरूक सुदृढीकरण सीखने का ढाँचा, निर्देशित हाइब्रिड नीति अनुकूलन (GHPO) प्रस्तुत करते हैं। यह बड़े पैमाने के भाषा मॉडलों (LLM) की जटिल अनुमान क्षमता में सुधार हेतु एक सुदृढीकरण सीखने की विधि है। GHPO अनुकूली शीघ्र सुधार के माध्यम से कार्य की कठिनाई को गतिशील रूप से समायोजित करके, मॉडल की वर्तमान क्षमता से परे समस्याओं के लिए प्रत्यक्ष अनुकरण सीखने को लागू करके, और प्रबंधनीय समस्याओं के लिए अन्वेषण-आधारित सुदृढीकरण सीखने को लागू करके एक कुशल सीखने की प्रक्रिया बनाता है। हम प्रयोगात्मक रूप से प्रदर्शित करते हैं कि हमारा दृष्टिकोण छह गणितीय मानदंडों पर मौजूदा सुदृढीकरण सीखने और पाठ्यक्रम सीखने की तकनीकों की तुलना में सीखने की स्थिरता और अंतिम अनुमान प्रदर्शन, दोनों में औसतन 5% सुधार करता है।

Takeaways, Limitations

Takeaways:
हम दिखाते हैं कि अनुकूली शीघ्र सुधार के माध्यम से गतिशील कठिनाई समायोजन एलएलएम की तर्क क्षमता में सुधार करने में प्रभावी है।
हम यह प्रदर्शित करते हैं कि सीखने की स्थिरता और प्रदर्शन के संदर्भ में जीएचपीओ मौजूदा सुदृढीकरण सीखने और पाठ्यक्रम सीखने के तरीकों से बेहतर है।
छोटे एलएलएम में कुशल शिक्षण के लिए एक नया दृष्टिकोण प्रस्तुत करना।
गणितीय समस्या-समाधान कौशल में सुधार करने में पर्याप्त प्रदर्शन सुधार प्रदर्शित करता है।
Limitations:
प्रस्तुत बेंचमार्क गणितीय समस्याओं तक सीमित है, तथा अन्य क्षेत्रों में इसकी सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
जीएचपीओ की अनुकूली त्वरित सुधार रणनीति की सामान्य प्रयोज्यता और सीमाओं पर आगे विश्लेषण की आवश्यकता है।
विभिन्न आकारों के एलएलएम के लिए प्रयोगात्मक परिणामों का अभाव है।
जीएचपीओ की कम्प्यूटेशनल लागत और दक्षता का आगे विश्लेषण आवश्यक है।
👍