Bài báo này đề cập đến hiện tượng các mô hình ngôn ngữ quy mô lớn (LLM) hoạt động tốt trên các chuẩn suy luận nhưng thường thất bại ngay cả khi đầu vào bị thay đổi một chút. Cụ thể, chúng tôi tập trung vào vấn đề suy luận Chuỗi suy nghĩ (CoT), trong đó các mẫu không chính xác được ghi nhớ, dẫn đến lỗi ở các bước trung gian và câu trả lời cuối cùng không chính xác. Để giải quyết vấn đề này, chúng tôi trình bày một khuôn khổ mới, STIM. STIM là một khuôn khổ phân tích cấp mã thông báo xác định suy luận dựa trên bộ nhớ bằng cách gán mỗi mã thông báo trong quá trình suy luận cho một trong ba nguồn bộ nhớ: cục bộ, tầm trung hoặc tầm xa, dựa trên sự đồng xuất hiện thống kê trong ngữ liệu tiền huấn luyện. Phân tích cấp mã thông báo trên nhiều tác vụ và cài đặt phân phối khác nhau cho thấy các mô hình phụ thuộc nhiều hơn vào bộ nhớ trong các trường hợp phức tạp hoặc đuôi dài, với bộ nhớ cục bộ là nguồn lỗi chính (lên đến 67% mã thông báo không chính xác). Hơn nữa, chúng tôi chứng minh rằng điểm số bộ nhớ của STIM có hiệu quả trong việc dự đoán các mã thông báo không chính xác trong các bước suy luận sai. STIM là một công cụ mạnh mẽ để chẩn đoán và cải thiện suy luận mô hình và có thể được khái quát hóa thành các tác vụ tạo theo từng bước có cấu trúc khác.