Bài báo này nghiên cứu việc cải thiện hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM) thông qua việc gợi ý Chuỗi Tư duy (CoT) từ góc độ phân phối dữ liệu. Chúng tôi nghiên cứu liệu suy luận CoT có phản ánh các sai lệch quy nạp cấu trúc học được từ dữ liệu huấn luyện hay không, hay liệu hiệu quả của nó có bị hạn chế bởi mức độ không khớp về phân phối giữa các câu hỏi huấn luyện và câu hỏi kiểm tra hay không. Để phân tích suy luận CoT trên ba chiều—nhiệm vụ, độ dài và định dạng—chúng tôi đã thiết kế và sử dụng DataAlchemy, một môi trường được kiểm soát, trong đó các LLM được huấn luyện từ đầu và được kiểm tra một cách có hệ thống trong các điều kiện phân phối khác nhau. Kết quả của chúng tôi cho thấy suy luận CoT là một hiện tượng mong manh, sẽ biến mất khi phân phối huấn luyện bị lệch. Do đó, chúng tôi nhấn mạnh rằng việc đạt được suy luận thực sự có thể khái quát hóa vẫn là một nhiệm vụ đầy thách thức.