यह पत्र सुदृढीकरण अधिगम-आधारित सत्यापन योग्य पुरस्कार अधिगम (RLVR) में भाषा मॉडलों के अनुमान प्रदर्शन को बेहतर बनाने के दो प्रमुख कारकों, गहराई और चौड़ाई का विश्लेषण करता है। हम बताते हैं कि मौजूदा GRPO एल्गोरिथम, Limitations, मध्यम सटीकता वाले नमूनों को अधिक भार देता है और कम सटीकता वाले नमूनों को कम भार देता है, जो अनुमान प्रदर्शन को बेहतर बनाने के लिए महत्वपूर्ण हैं। इसे संबोधित करने के लिए, हम कठिनाई अनुकूली रोलआउट नमूनाकरण (DARS) का प्रस्ताव करते हैं, एक तकनीक जो कठिन समस्याओं पर बहु-चरण रोलआउट के माध्यम से भार को पुनर्संतुलित करती है। इसके अलावा, हम बैच आकार में उल्लेखनीय रूप से वृद्धि करके और PPO के मिनी-बैच पुनरावृत्तियों के बजाय कई युगों में पूर्ण-बैच अपडेट का उपयोग करके प्रशिक्षण डेटा की चौड़ाई का विस्तार करने की एक विधि प्रस्तुत करते हैं। अंत में, हम DARS-B का प्रस्ताव करते हैं