यह शोधपत्र दर्शाता है कि नियम-आधारित सुदृढीकरण अधिगम (RL) बड़े पैमाने के भाषा मॉडलों (LLM) के अनुमान प्रदर्शन में उल्लेखनीय सुधार करता है, लेकिन अंतर्निहित क्रियाविधि अभी भी अस्पष्ट है। हमने पाया है कि लघु-स्तरीय पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) RL पर महत्वपूर्ण प्रभाव डालता है, लेकिन कम दक्षता के साथ, और इसे समझाने के लिए एक विश्लेषणात्मक ढाँचा प्रस्तावित करते हैं। हम नमूनाकरण प्रभाव को मापकर SFT और RL की दक्षता की तुलना करते हैं और SFT की दक्षता में सुधार की संभावना का सुझाव देते हैं। इस विश्लेषण के आधार पर, हम एक "पुनः आसवन" तकनीक प्रस्तावित करते हैं जो लघु-स्तरीय आसवन की प्रभावशीलता को बढ़ाने के लिए RL-प्रशिक्षित नीतियों से नमूने लेती है। तीन डेटासेट और क्वेन एवं लामा मॉडल पर, पुनः आसवन मॉडल उल्लेखनीय दक्षता प्रदर्शित करता है, और काफी कम नमूनों और गणनाओं के साथ RL प्रदर्शन प्राप्त करता है। K एवं K डेटासेट पर, पुनः आसवित क्वेन-2.5-1.5B मॉडल ने केवल 1K SFT नमूनों के साथ DeepSeek-V3-0324 से बेहतर प्रदर्शन किया। इसके अलावा, हम यह प्रदर्शित करते हैं कि पुनर्आसवन का उपयोग आरएल में कई उद्देश्यों को कुशलतापूर्वक संतुलित करने के लिए किया जा सकता है, और आर1-शैली आरएल में कई दिलचस्प घटनाओं की व्याख्या की जा सकती है, तथा इसकी अनुभवजन्य सफलता के पीछे के तंत्र का खुलासा किया जा सकता है।