दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आरएलवीआर में गहराई-चौड़ाई का तालमेल: अनुकूली अन्वेषण के साथ एलएलएम तर्क लाभ को अनलॉक करना

Created by
  • Haebom

लेखक

झिचेंग यांग, झिजियांग गुओ, यिन्या हुआंग, योंगक्सिन वांग, डोंगचुन झी, यीवेई वांग, ज़ियाओदान लियांग, जिंग तांग

रूपरेखा

यह पत्र सुदृढीकरण अधिगम-आधारित सत्यापन योग्य पुरस्कार अधिगम (RLVR) में भाषा मॉडलों के अनुमान प्रदर्शन को बेहतर बनाने के दो प्रमुख कारकों, गहराई और चौड़ाई का विश्लेषण करता है। हम बताते हैं कि मौजूदा GRPO एल्गोरिथम, Limitations, मध्यम सटीकता वाले नमूनों को अधिक भार देता है और कम सटीकता वाले नमूनों को कम भार देता है, जो अनुमान प्रदर्शन को बेहतर बनाने के लिए महत्वपूर्ण हैं। इसे संबोधित करने के लिए, हम कठिनाई अनुकूली रोलआउट नमूनाकरण (DARS) का प्रस्ताव करते हैं, एक तकनीक जो कठिन समस्याओं पर बहु-चरण रोलआउट के माध्यम से भार को पुनर्संतुलित करती है। इसके अलावा, हम बैच आकार में उल्लेखनीय रूप से वृद्धि करके और PPO के मिनी-बैच पुनरावृत्तियों के बजाय कई युगों में पूर्ण-बैच अपडेट का उपयोग करके प्रशिक्षण डेटा की चौड़ाई का विस्तार करने की एक विधि प्रस्तुत करते हैं। अंत में, हम DARS-B का प्रस्ताव करते हैं

Takeaways, Limitations

Takeaways:
जीआरपीओ एल्गोरिथम में गहराई और चौड़ाई का महत्व Limitations में प्रकट होता है।
DARS तकनीक के माध्यम से RLVR के अनुमान प्रदर्शन में सुधार करना, जिससे कठिन समस्याओं के अन्वेषण में वृद्धि होती है।
बड़े बैच आकार का उपयोग करके चौड़ाई विस्तार के माध्यम से अतिरिक्त प्रदर्शन सुधार।
DARS-B गहराई और चौड़ाई में एक साथ सुधार करता है, जिससे Pass@K और Pass@1 दोनों का प्रदर्शन बेहतर होता है।
प्रयोगात्मक रूप से प्रदर्शित किया गया कि आरएलवीआर में गहराई और चौड़ाई स्वतंत्र रूप से कार्य करती हैं।
Limitations:
प्रस्तावित विधि की प्रभावशीलता विशिष्ट आरएलवीआर सेटिंग्स और डेटासेट तक सीमित हो सकती है।
बड़े बैच आकार का उपयोग करने के कारण कम्प्यूटेशनल लागत में वृद्धि।
अधिक विविध समस्या प्रकारों और डेटासेट पर अतिरिक्त प्रयोगों की आवश्यकता है।
👍