इस पत्र में, हम प्रक्रिया सुदृढ़ीकरण अधिगम (PRL) की उच्च कम्प्यूटेशनल लागत को संबोधित करने के लिए एक स्व-निर्देशित प्रक्रिया पुरस्कार अनुकूलन (SPRO) ढाँचा प्रस्तावित करते हैं, जिसने बड़े पैमाने पर भाषा मॉडल (LLM) की अनुमान क्षमता में सुधार करने और प्रक्रिया-स्तरीय लाभ अनुमान के लिए एकीकृत सैद्धांतिक ढाँचे की कमी के लिए महत्वपूर्ण क्षमता दिखाई है। SPRO दो प्रमुख नवाचारों के माध्यम से प्रक्रिया-जागरूक RL को सक्षम बनाता है: सैद्धांतिक रूप से यह साबित करना कि प्रक्रिया पुरस्कार नीति मॉडल से ही प्राप्त किए जा सकते हैं, और एक साझा प्रॉम्प्ट नमूना समूह के भीतर सख्त चरण-दर-चरण कार्रवाई लाभ अनुमान को सक्षम करने के लिए अच्छी तरह से परिभाषित संचयी प्रक्रिया पुरस्कार और मास्क्ड-स्टेप लाभ (MSA) को पेश करना। प्रायोगिक परिणाम दिखाते हैं कि SPRO पारंपरिक GRPO की तुलना में 3.4 गुना अधिक प्रशिक्षण दक्षता और 17.5% बेहतर परीक्षण सटीकता प्राप्त करता है। इसके अलावा, हम प्रशिक्षण प्रक्रिया के दौरान स्थिर और उच्च नीति एन्ट्रॉपी को बनाए रखते हुए औसत प्रतिक्रिया लंबाई को लगभग 1/3 तक कम करके पर्याप्त अन्वेषण और पुरस्कार हैकिंग की रोकथाम का प्रदर्शन करते हैं। विशेष रूप से, SPRO औद्योगिक कार्यान्वयन के लिए लाभप्रद है, क्योंकि इसमें GRPO जैसे परिणाम-पर्यवेक्षित RL विधियों की तुलना में अतिरिक्त कम्प्यूटेशनल लागत नहीं लगती है।