इस शोधपत्र में, हम स्व-शिक्षित लुकअहेड (STL) प्रस्तुत करते हैं, जो बहु-चरणीय अनुमान कार्यों के लिए सही उत्तरों को पुरस्कृत करने या मानव प्रदर्शन डेटा एकत्र करने में कठिनाइयों को दूर करने के लिए एक नवीन स्व-पर्यवेक्षित शिक्षण-आधारित विधि है। STL राज्य संक्रमण गतिशीलता का लाभ उठाकर लेबल किए गए डेटा के बिना भाषा मॉडल-आधारित पुनर्प्राप्ति को प्रभावी ढंग से निर्देशित करने के लिए मूल्य मॉडल में सुधार करता है। 8 बिलियन मापदंडों वाले ओपन-वेटेड वैल्यू मॉडल पर STL लागू करके, हम GPT-4o वैल्यू मॉडल के बराबर प्रदर्शन प्राप्त करते हैं। इसके अलावा, STL द्वारा सीखे गए विशेष मूल्य मॉडल का उपयोग एक हल्के खोज एल्गोरिदम के साथ करके, हम 10x लागत में कमी के साथ महंगे ट्री सर्च विधियों के बराबर प्रदर्शन प्राप्त करते हैं।