इस शोधपत्र में, हम ThinkLogit का प्रस्ताव रखते हैं, जो बड़े पैमाने के अनुमान मॉडल (LRM) की दीर्घकालिक अनुमान क्षमता में सुधार लाने की एक नवीन विधि है। ThinkLogit एक डिकोडिंग-टाइम दृष्टिकोण है जो लॉगिट संक्रियाओं का उपयोग करके एक छोटे मॉडल (गाइड मॉडल) का उपयोग करके एक बड़े पैमाने के मॉडल (लक्ष्य मॉडल) की दीर्घकालिक अनुमान क्षमता में सुधार करता है। इसके अतिरिक्त, हम ThinkLogit-DPO का प्रस्ताव रखते हैं, जो सही/गलत अनुमान युग्मों का उपयोग करके वरीयता अनुकूलन के माध्यम से गाइड मॉडल को प्रशिक्षित करता है। प्रायोगिक परिणाम दर्शाते हैं कि जब Qwen2.5-32B मॉडल को R1-Distill-Qwen-1.5B (एक 21x छोटा मॉडल) द्वारा निर्देशित किया जाता है, तो ThinkLogit और ThinkLogit-DPO चार गणितीय डेटासेट पर क्रमशः 26% और 29% तक pass@1 में सुधार करते हैं। इसके अतिरिक्त, ThinkLogit सुदृढीकरण अधिगम के माध्यम से प्राप्त दीर्घकालिक अनुमान कौशल को Qwen2.5-32B आधार मॉडल की तुलना में pass@1 में 13% तक सुधार करने के लिए स्थानांतरित करता है। यह बिना किसी अतिरिक्त शिक्षण या न्यूनतम शिक्षण के साथ बड़े पैमाने के मॉडलों में दीर्घकालिक अनुमान लगाने के लिए एक कम्प्यूटेशनल रूप से कुशल विधि प्रस्तुत करता है।