दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सिंपलआरएल-ज़ू: खुले आधार मॉडल के लिए शून्य सुदृढीकरण सीखने की जांच और नियंत्रण

Created by
  • Haebom

लेखक

वेइहाओ ज़ेंग, युज़ेन हुआंग, कियान लियू, वेई लियू, केकिंग हे, ज़ेजुन मा, जुनक्सियन हे

रूपरेखा

यह शोधपत्र नियम-आधारित पुरस्कारों का उपयोग करते हुए एक सरल सुदृढीकरण अधिगम (RL) ढाँचे के माध्यम से दीर्घकालिक विचार श्रृंखला (CoT) अनुमान के स्वाभाविक उद्भव को प्रदर्शित करता है। यह शोधपत्र डीपसीक-R1 के शून्य-RL अधिगम दृष्टिकोण को विभिन्न आधार मॉडलों पर लागू करता है। पिछले अध्ययनों के विपरीत, जो मुख्य रूप से Qwen2.5 मॉडल पर केंद्रित थे, हमने दस अलग-अलग आधार मॉडलों पर शून्य-RL अधिगम किया, जिनमें LLaMa3-8B, मिस्ट्रल-7B/24B, डीपसीक-मैथ-7B, और Qwen2.5-मैथ-7B शामिल हैं। औपचारिक पुरस्कार समायोजन और क्वेरी कठिनाई नियंत्रण जैसी रणनीतियों ने अधिकांश स्थितियों में अनुमान की सटीकता और प्रतिक्रिया अवधि में उल्लेखनीय सुधार किया। हालाँकि, अधिगम गतिशीलता की निगरानी से पता चला कि विभिन्न आधार मॉडलों ने अद्वितीय अधिगम पैटर्न प्रदर्शित किए। उदाहरण के लिए, बढ़ी हुई प्रतिक्रिया अवधि हमेशा विशिष्ट संज्ञानात्मक व्यवहारों, जैसे सत्यापन, के उद्भव से संबंधित नहीं थी। उल्लेखनीय रूप से, हमने Qwen परिवार के बाहर एक छोटे पैमाने के मॉडल में पहली बार "आहा क्षण" देखे। हम कोर डिजाइन, शोध निष्कर्ष और व्यावहारिक अनुभव साझा करते हैं जो सफल शून्य-स्तरीय आरएल सीखने, और ओपन-सोर्स कोड, मॉडल और विश्लेषण उपकरण को सक्षम करते हैं।

Takeaways, Limitations

Takeaways:
हम विभिन्न आधार मॉडलों पर शून्य-आरएल सीखने की प्रभावशीलता को मान्य करते हैं और सफल सीखने के लिए प्रमुख डिजाइन रणनीतियों को प्रस्तुत करते हैं।
हमने प्रारूप क्षतिपूर्ति समायोजन और क्वेरी कठिनाई नियंत्रण के माध्यम से अनुमान सटीकता और प्रतिक्रिया लंबाई में सुधार हासिल किया।
हमने क्वेन परिवार के बाहर छोटे पैमाने के मॉडलों में भी "अहा क्षण" देखे, जो मॉडल आर्किटेक्चर की विविधता और शून्य-आरएल सीखने की प्रयोज्यता को प्रदर्शित करते हैं।
हम अपने कोड, मॉडल और विश्लेषण उपकरणों को ओपन-सोर्स करके आगे के अनुसंधान का समर्थन करते हैं।
Limitations:
मॉडल सीखने की प्रक्रिया की गहन समझ का अभाव हो सकता है, जैसा कि प्रतिक्रिया की लंबाई में वृद्धि और संज्ञानात्मक व्यवहार के उद्भव के बीच सुसंगत सहसंबंध की कमी से स्पष्ट होता है।
प्रयुक्त अंतर्निहित मॉडलों की विविधता के बावजूद, कुछ मॉडल परिवारों के प्रति पूर्वाग्रह मौजूद रहने की संभावना है।
आपको "अहा क्षण" को परिभाषित करने और मापने के लिए स्पष्ट मानदंडों की आवश्यकता हो सकती है।
👍