[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आरएल का विस्तार: दीर्घकालिक प्रशिक्षण के माध्यम से एलएलएम में विविध तर्क को उजागर करना

Created by
  • Haebom

लेखक

मिंगजी लियू, शिज़े डियाओ, जियान हू, ज़िमिंग लू,

रूपरेखा

हम एक अध्ययन के परिणाम प्रस्तुत करते हैं जिसमें गणित, कोडिंग और तर्क पहेली जैसे विभिन्न अनुमान क्षेत्रों में प्रदर्शन में सुधार लाने के लिए लघु-स्तरीय भाषा मॉडलों पर दीर्घकालिक सुदृढीकरण अधिगम का अनुप्रयोग किया गया। हमने सत्यापन योग्य पुरस्कार संकेतों का उपयोग करके, समूह सापेक्ष नीति अनुकूलन (GRPO) में सुधार करके, और प्रशिक्षण स्थिरता और सामान्यीकरण प्रदर्शन में सुधार के लिए KL नियमन, क्लिपिंग अनुपात और आवधिक संदर्भ नीति रीसेट को नियंत्रित करके प्रभावी प्रशिक्षण दिया। परिणामस्वरूप, हमने गणित (+14.7%), कोडिंग (+13.9%), और तर्क पहेली (+54.8%) कार्यों में मौजूदा अत्याधुनिक मॉडलों की तुलना में उल्लेखनीय प्रदर्शन सुधार प्रदर्शित किए, और हम अनुवर्ती अनुसंधान का समर्थन करने के लिए प्रशिक्षित मॉडलों को सार्वजनिक करते हैं।

Takeaways, Limitations

Takeaways:
दीर्घकालिक सुदृढीकरण सीखने के माध्यम से छोटे भाषा मॉडल की अनुमान क्षमता में सुधार की संभावना
सत्यापन योग्य पुरस्कार संकेतों, जीआरपीओ सुधारों और प्रशिक्षण स्थिरता संवर्धन तकनीकों की प्रभावशीलता का प्रदर्शन
विभिन्न तर्क क्षेत्रों (गणित, कोडिंग, तर्क पहेलियाँ) में बेहतर प्रदर्शन
प्रशिक्षित मॉडलों के सार्वजनिक प्रकटीकरण के माध्यम से अनुसंधान सक्रियण में योगदान करें
Limitations:
शोध का विषय एक लघु भाषा मॉडल है। बड़े पैमाने के मॉडल पर लागू होने पर इसके प्रदर्शन की पुष्टि नहीं हुई है।
विशिष्ट तकनीकों की प्रभावशीलता के गहन विश्लेषण का अभाव। प्रत्येक तकनीक के योगदान का मात्रात्मक विश्लेषण आवश्यक है।
उपयोग किए गए डेटासेट और कार्यों के प्रकारों के विस्तृत विवरण का अभाव। सामान्यीकरण की और पुष्टि की आवश्यकता है।
👍