Klear-Reasoner là một mô hình có khả năng suy luận dài hạn, thể hiện sự cân nhắc cẩn thận trong quá trình giải quyết vấn đề và đạt hiệu suất vượt trội trên nhiều chuẩn mực. Các mô hình suy luận hiện tại gặp khó khăn trong việc tái tạo các mô hình hiệu suất cao do không tiết lộ đầy đủ chi tiết đào tạo. Bài báo này phân tích toàn bộ quy trình, từ chuẩn bị dữ liệu, tinh chỉnh bản đồ Chuỗi suy nghĩ dài (CoT SFT dài) và học tăng cường (RL). Kết quả thử nghiệm trên dữ liệu SFT chứng minh rằng một số ít nguồn dữ liệu chất lượng cao hiệu quả hơn một số lượng lớn các nguồn dữ liệu đa dạng và việc sử dụng các mẫu thử thách mà không có bộ lọc độ chính xác mang lại kết quả tốt hơn. Hơn nữa, để giải quyết hai vấn đề chính với các cơ chế cắt RL hiện có (cắt chặn các tín hiệu thăm dò quan trọng và bỏ qua các đường dẫn không tối ưu), chúng tôi đề xuất Tối ưu hóa Chính sách Cắt Bảo toàn Gradient (GPPO). GPPO truyền ngược gradient một cách trơn tru từ các mã thông báo bị cắt để tăng cường khả năng khám phá của mô hình và cải thiện việc học từ các mẫu âm. Klear-Reasoner thể hiện kỹ năng lập luận tuyệt vời trong toán học và lập trình, đạt 90,5% trên AIME 2024, 83,2% trên AIME 2025, 66,0% trên LiveCodeBench V5 và 58,1% trên LiveCodeBench V6.