यह शोधपत्र सिंगल-पास एनोटेशन विद रेफरेंस-गाइडेड इवैल्यूएशन (SPARE) प्रस्तुत करता है, जो एक नवीन संरचित ढाँचा है जो संदर्भ समाधानों और समाधान चरणों को एक ही पीढ़ी में संरेखित करता है और स्पष्ट अनुमान के माध्यम से सटीकता निर्धारित करता है। इस चुनौती का समाधान करने के लिए, हम चार विविध डेटासेट पर ऑफ़लाइन सुदृढीकरण अधिगम के माध्यम से प्रक्रिया क्षतिपूर्ति मॉडल (PRM) के प्रशिक्षण और मॉडलों को परिष्कृत करने में SPARE की प्रभावशीलता प्रदर्शित करते हैं: गणितीय तर्क (GSM8K, MATH), बहु-चरणीय प्रश्नोत्तर (MuSiQue-Ans), और स्थानिक तर्क (SpaRP)। ProcessBench पर, SPARE मौजूदा विधियों की तुलना में काफी कम प्रशिक्षण नमूनों के साथ बेहतर प्रदर्शन और डेटा दक्षता प्राप्त करता है, और MCTS-आधारित विधियों की तुलना में प्रतिस्पर्धी प्रदर्शन और गति में वृद्धि प्रदर्शित करता है। परिशुद्धता-स्मरण विश्लेषण MCTS दृष्टिकोणों के साथ पूरक विशेषताओं को प्रकट करता है, जो एनसेम्बल विधियों की क्षमता का सुझाव देता है।