यह पत्र उस परिघटना को संबोधित करता है जहाँ बड़े पैमाने के भाषा मॉडल (LLM) अनुमान मानकों पर अच्छा प्रदर्शन करते हैं, लेकिन अक्सर इनपुट में थोड़ा बदलाव होने पर भी विफल हो जाते हैं। विशेष रूप से, हम इस बात पर प्रकाश डालते हैं कि विचार श्रृंखला (CoT) अनुमान में दोषपूर्ण स्मृति पैटर्न मध्यवर्ती त्रुटियों को जन्म दे सकते हैं, जिसके परिणामस्वरूप गलत अंतिम उत्तर प्राप्त होते हैं। इसे संबोधित करने के लिए, हम STIM, एक नवीन ढाँचा प्रस्तुत करते हैं। STIM, पूर्व-प्रशिक्षण कोष में सांख्यिकीय सह-घटनाओं के आधार पर, अनुमान प्रक्रिया में प्रत्येक टोकन को कई स्मृति स्रोतों—स्थानीय, मध्य-सीमा, या दीर्घ-सीमा—में से एक को निर्दिष्ट करके स्मृति के स्रोत की पहचान करने पर केंद्रित है। विभिन्न कार्यों और वितरणात्मक सेटिंग्स में टोकन-स्तरीय विश्लेषण से पता चलता है कि मॉडल जटिल या दीर्घ-पुच्छीय कार्यों में स्मृति पर अधिक निर्भर करते हैं, जहाँ स्थानीय स्मृति त्रुटियों का प्राथमिक स्रोत होती है (गलत टोकनों का 67% तक)। हम यह भी प्रदर्शित करते हैं कि STIM के स्मृति स्कोर का उपयोग त्रुटिपूर्ण अनुमान चरणों में गलत टोकनों की भविष्यवाणी करने के लिए किया जा सकता है। STIM मॉडल अनुमान के निदान और सुधार के लिए एक शक्तिशाली उपकरण है और इसे अन्य संरचित चरण-दर-चरण निर्माण कार्यों के लिए सामान्यीकृत किया जा सकता है।