यह शोधपत्र नियम-आधारित पुरस्कारों का उपयोग करते हुए एक सरल सुदृढीकरण अधिगम (RL) ढाँचे के माध्यम से दीर्घकालिक विचार श्रृंखला (CoT) अनुमान के स्वाभाविक उद्भव को प्रदर्शित करता है। यह शोधपत्र डीपसीक-R1 के शून्य-RL अधिगम दृष्टिकोण को विभिन्न आधार मॉडलों पर लागू करता है। पिछले अध्ययनों के विपरीत, जो मुख्य रूप से Qwen2.5 मॉडल पर केंद्रित थे, हमने दस अलग-अलग आधार मॉडलों पर शून्य-RL अधिगम किया, जिनमें LLaMa3-8B, मिस्ट्रल-7B/24B, डीपसीक-मैथ-7B, और Qwen2.5-मैथ-7B शामिल हैं। औपचारिक पुरस्कार समायोजन और क्वेरी कठिनाई नियंत्रण जैसी रणनीतियों ने अधिकांश स्थितियों में अनुमान की सटीकता और प्रतिक्रिया अवधि में उल्लेखनीय सुधार किया। हालाँकि, अधिगम गतिशीलता की निगरानी से पता चला कि विभिन्न आधार मॉडलों ने अद्वितीय अधिगम पैटर्न प्रदर्शित किए। उदाहरण के लिए, बढ़ी हुई प्रतिक्रिया अवधि हमेशा विशिष्ट संज्ञानात्मक व्यवहारों, जैसे सत्यापन, के उद्भव से संबंधित नहीं थी। उल्लेखनीय रूप से, हमने Qwen परिवार के बाहर एक छोटे पैमाने के मॉडल में पहली बार "आहा क्षण" देखे। हम कोर डिजाइन, शोध निष्कर्ष और व्यावहारिक अनुभव साझा करते हैं जो सफल शून्य-स्तरीय आरएल सीखने, और ओपन-सोर्स कोड, मॉडल और विश्लेषण उपकरण को सक्षम करते हैं।