यह शोधपत्र R-Stitch का प्रस्ताव करता है, जो विचार-श्रृंखला (CoT) अनुमान की गणना-संबंधी लागत को कम करने की एक नवीन विधि है। CoT अनुमान, बड़े पैमाने के भाषा मॉडलों (LLM) की समस्या-समाधान क्षमता को बढ़ाता है, लेकिन लंबे टोकन अनुक्रमों के स्वतःप्रत्यागामी डिकोडिंग के कारण यह गणना-संबंधी रूप से महंगा है। मौजूदा त्वरण रणनीतियाँ या तो प्रारंभिक रोक या संपीड़न क्षतिपूर्ति योजनाओं के माध्यम से अनुक्रम की लंबाई कम करती हैं, या लघु-स्तरीय मॉडलों का उपयोग करके पूर्वानुमानित डिकोडिंग के माध्यम से डिकोडिंग गति में सुधार करती हैं। हालाँकि, जब लघु-स्तरीय और वृहद-स्तरीय मॉडलों के बीच सहमति कम होती है, तो पूर्वानुमानित डिकोडिंग की गति सीमित होती है, और यह संक्षिप्त मध्यवर्ती अनुमान उत्पन्न करने में लघु-स्तरीय मॉडलों के संभावित लाभों का लाभ उठाने में विफल रहता है। R-Stitch एक टोकन-स्तरीय विश्वास-आधारित हाइब्रिड डिकोडिंग ढाँचा है जो लघु-स्तरीय भाषा मॉडलों (SLM) और वृहद-स्तरीय भाषा मॉडलों (LLM) के बीच स्विच करता है, और LLM का उपयोग केवल तभी करता है जब SLM का विश्वास एक सीमा से नीचे चला जाता है, जिससे दक्षता और सटीकता दोनों बनी रहती है। यह मॉडल-स्वतंत्र है, इसके लिए किसी प्रशिक्षण की आवश्यकता नहीं है, और यह मानक डिकोडिंग पाइपलाइनों के साथ संगत है। गणितीय अनुमान बेंचमार्क प्रयोगों से पता चलता है कि आर-स्टिच न्यूनतम सटीकता ह्रास के साथ अनुमान विलंबता को 85% तक कम कर देता है।