Cet article aborde le phénomène selon lequel les modèles de langage à grande échelle (MLH) obtiennent de bons résultats aux tests d'inférence, mais échouent souvent même lorsque les données d'entrée sont légèrement modifiées. Plus précisément, nous soulignons que des schémas de mémoire défaillants dans l'inférence par chaîne de pensée (CdP) peuvent entraîner des erreurs intermédiaires, conduisant à des réponses finales incorrectes. Pour remédier à ce problème, nous présentons STIM, un nouveau cadre. STIM se concentre sur l'identification de la source de mémoire en attribuant à chaque jeton du processus d'inférence l'une des différentes sources de mémoire (locale, moyenne ou longue portée) en fonction des cooccurrences statistiques dans le corpus de pré-apprentissage. L'analyse au niveau du jeton, sur diverses tâches et configurations distributionnelles, révèle que les modèles s'appuient davantage sur la mémoire dans les tâches complexes ou à longue traîne, la mémoire locale étant la principale source d'erreurs (jusqu'à 67 % de jetons incorrects). Nous démontrons également que les scores de mémoire de STIM peuvent être utilisés pour prédire les jetons incorrects dans les étapes d'inférence erronées. STIM est un outil puissant pour diagnostiquer et améliorer l’inférence des modèles et peut être généralisé à d’autres tâches de génération structurées étape par étape.