यह पत्र एक प्रक्रिया क्षतिपूर्ति मॉडल प्रस्तावित करता है जो बहु-चरणीय अनुमान रणनीतियों का उपयोग करने वाले मॉडलों में मध्यवर्ती-स्तरीय अनुमान की वैधता के पर्यवेक्षण की समस्या के समाधान हेतु चरण-दर-चरण प्रतिक्रिया प्रदान करता है। मौजूदा प्रक्रिया क्षतिपूर्ति मॉडलों में स्पष्टीकरणों का अभाव है और वे स्थिर डेटासेट का उपयोग करके पर्यवेक्षित अधिगम पर निर्भर करते हैं, जिसके परिणामस्वरूप सीमित सामान्यीकरण होता है (T15405)। इस पत्र में, हम चरण-दर-चरण क्षतिपूर्ति मॉडलिंग को वर्गीकरण कार्य के बजाय एक अनुमान कार्य के रूप में पुनर्परिभाषित करते हैं, और एक जनरेटिव जज का प्रस्ताव करते हैं जो एक नीति मॉडल के अनुमान चरणों का अनुमान लगाता है। प्रस्तावित मॉडल, स्टेपवाइज़र, को रोलआउट के सापेक्ष परिणामों का उपयोग करके सुदृढीकरण अधिगम का उपयोग करके प्रशिक्षित किया गया है, और यह मौजूदा विधियों की तुलना में बेहतर मध्यवर्ती-स्तरीय निर्णय सटीकता, प्रशिक्षण के दौरान बेहतर नीति मॉडलिंग और बेहतर अनुमान-समय खोज प्रदर्शित करता है।