Bài báo này chứng minh sự xuất hiện tự nhiên của suy luận chuỗi suy nghĩ dài hạn (CoT) thông qua một khuôn khổ học tăng cường (RL) đơn giản sử dụng phần thưởng dựa trên quy tắc. Bài báo này áp dụng phương pháp học RL bằng không của DeepSeek-R1 cho nhiều mô hình cơ sở khác nhau. Không giống như các nghiên cứu trước đây chủ yếu tập trung vào mô hình Qwen2.5, chúng tôi đã thực hiện học RL bằng không trên mười mô hình cơ sở khác nhau, bao gồm LLaMa3-8B, Mistral-7B/24B, DeepSeek-Math-7B và Qwen2.5-math-7B. Các chiến lược như điều chỉnh phần thưởng chính thức và kiểm soát độ khó truy vấn đã cải thiện đáng kể độ chính xác suy luận và độ dài phản hồi trong hầu hết các trường hợp. Tuy nhiên, việc theo dõi động lực học tập cho thấy các mô hình cơ sở khác nhau thể hiện các kiểu học tập độc đáo. Ví dụ, độ dài phản hồi tăng lên không phải lúc nào cũng tương quan với sự xuất hiện của các hành vi nhận thức cụ thể, chẳng hạn như xác nhận. Đáng chú ý, chúng tôi đã quan sát thấy "khoảnh khắc aha" lần đầu tiên trong một mô hình quy mô nhỏ bên ngoài họ Qwen. Chúng tôi chia sẻ thiết kế cốt lõi, kết quả nghiên cứu và kinh nghiệm thực tế giúp học RL cấp độ không thành công, cũng như mã nguồn mở, mô hình và công cụ phân tích.