हम एक अध्ययन के परिणाम प्रस्तुत करते हैं जिसमें गणित, कोडिंग और तर्क पहेली जैसे विभिन्न अनुमान क्षेत्रों में प्रदर्शन में सुधार लाने के लिए लघु-स्तरीय भाषा मॉडलों पर दीर्घकालिक सुदृढीकरण अधिगम का अनुप्रयोग किया गया। हमने सत्यापन योग्य पुरस्कार संकेतों का उपयोग करके, समूह सापेक्ष नीति अनुकूलन (GRPO) में सुधार करके, और प्रशिक्षण स्थिरता और सामान्यीकरण प्रदर्शन में सुधार के लिए KL नियमन, क्लिपिंग अनुपात और आवधिक संदर्भ नीति रीसेट को नियंत्रित करके प्रभावी प्रशिक्षण दिया। परिणामस्वरूप, हमने गणित (+14.7%), कोडिंग (+13.9%), और तर्क पहेली (+54.8%) कार्यों में मौजूदा अत्याधुनिक मॉडलों की तुलना में उल्लेखनीय प्रदर्शन सुधार प्रदर्शित किए, और हम अनुवर्ती अनुसंधान का समर्थन करने के लिए प्रशिक्षित मॉडलों को सार्वजनिक करते हैं।