Bài báo này chứng minh rằng học tăng cường dựa trên quy tắc (RL) cải thiện đáng kể hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM), nhưng cơ chế cơ bản vẫn chưa rõ ràng. Chúng tôi nhận thấy rằng tinh chỉnh có giám sát quy mô nhỏ (SFT) tác động đáng kể đến RL nhưng lại không hiệu quả, và đề xuất một khuôn khổ phân tích để giải thích điều này. Chúng tôi so sánh hiệu quả của SFT và RL bằng cách đo lường hiệu ứng lấy mẫu và đề xuất khả năng cải thiện hiệu quả của SFT. Dựa trên phân tích này, chúng tôi đề xuất một kỹ thuật "chưng cất lại" lấy mẫu từ các chính sách đã được huấn luyện RL để nâng cao hiệu quả của chưng cất quy mô nhỏ. Trên ba tập dữ liệu và mô hình Qwen & Llama, chúng tôi chứng minh rằng mô hình chưng cất lại đạt được hiệu suất RL với số lượng mẫu và phép tính ít hơn đáng kể. Trên tập dữ liệu K & K, mô hình Qwen-2.5-1.5B sau khi chưng cất lại hoạt động tốt hơn DeepSeek-V3-0324 chỉ với 1K mẫu SFT. Hơn nữa, chúng tôi chứng minh rằng chưng cất lại có thể được sử dụng để cân bằng hiệu quả nhiều mục tiêu trong RL và giải thích một số hiện tượng thú vị trong RL kiểu R1, đồng thời tiết lộ cơ chế đằng sau thành công thực nghiệm của nó.