Bài báo này đề xuất phương pháp học tương phản với CoT-based Reinforced Fine-Tuning (\TheName{}), một phương pháp tinh chỉnh dựa trên học tăng cường mới để cải thiện khả năng suy luận của các mô hình ngôn ngữ quy mô lớn (LLM). Để giải quyết các vấn đề về lấy mẫu đường suy luận không ổn định và bỏ qua các quá trình suy nghĩ có chú thích (CoT) trong các phương pháp dựa trên RL hiện có, cũng như việc quá nhấn mạnh vào CoT trong các phương pháp SFT hiện có, chúng tôi tìm hiểu các biểu diễn cho từng CoT và thiết kế các tín hiệu tương phản mới để hướng dẫn quá trình tinh chỉnh. \TheName{} sử dụng đầy đủ các CoT có chú thích trong khi kết hợp các tín hiệu học không giám sát để ổn định quá trình tinh chỉnh. Các kết quả thử nghiệm sử dụng ba phương pháp cơ sở, hai mô hình cơ sở và hai tập dữ liệu chứng minh những lợi thế đáng kể của \TheName{} về độ mạnh mẽ, hiệu suất (cải thiện tới 10,15%) và hiệu quả (cải thiện tới 30,62%).