Bài báo này phân tích sự cải thiện hiệu suất của các Mô hình Ngôn ngữ Lớn (LLM) thông qua việc gợi ý Chuỗi Tư duy (CoT) từ góc độ phân phối dữ liệu. Chúng tôi nghiên cứu xem liệu suy luận CoT có phản ánh các sai lệch quy nạp cấu trúc học được từ dữ liệu huấn luyện hay không, cho phép tạo ra các điều kiện xấp xỉ các đường suy luận quan sát được trong quá trình huấn luyện. Để đạt được điều này, chúng tôi thiết kế DataAlchemy, một môi trường được kiểm soát, nơi chúng tôi huấn luyện LLM từ đầu và nghiên cứu một cách có hệ thống các điều kiện phân phối khác nhau. Chúng tôi phân tích suy luận CoT trên ba chiều: nhiệm vụ, độ dài và định dạng. Kết quả của chúng tôi cho thấy suy luận CoT là một hiện tượng mong manh, biến mất bên ngoài phân phối huấn luyện, làm nổi bật khó khăn trong việc đạt được suy luận thực sự có thể khái quát hóa.