Este artículo aborda el fenómeno donde los modelos de lenguaje a gran escala (LLMs) se desempeñan bien en los puntos de referencia de inferencia, pero a menudo fallan incluso cuando la entrada se altera ligeramente. Específicamente, destacamos que los patrones de memoria defectuosos en la inferencia de Cadena de Pensamiento (CoT) pueden conducir a errores intermedios, resultando en respuestas finales incorrectas. Para abordar esto, presentamos STIM, un marco novedoso. STIM se centra en identificar la fuente de memoria asignando cada token en el proceso de inferencia a una de varias fuentes de memoria (local, de rango medio o de largo alcance) con base en co-ocurrencias estadísticas en el corpus de preentrenamiento. El análisis a nivel de token en varias tareas y entornos distribucionales revela que los modelos dependen más de la memoria en tareas complejas o de cola larga, siendo la memoria local la principal fuente de errores (hasta el 67% de tokens incorrectos). También demostramos que las puntuaciones de memoria de STIM pueden usarse para predecir tokens incorrectos en pasos de inferencia erróneos. STIM es una herramienta poderosa para diagnosticar y mejorar la inferencia de modelos y puede generalizarse a otras tareas de generación estructuradas paso a paso.