Bài báo này đề xuất phương pháp Tối ưu hóa Chính sách Cắt Động (DCPO), một khuôn khổ mới để cải thiện khả năng suy luận của các mô hình ngôn ngữ quy mô lớn thông qua học tăng cường. Để giải quyết vấn đề không có độ dốc (gradient) của phương pháp GRPO hiện có, chúng tôi giới thiệu một chiến lược cắt động dựa trên xác suất tiên nghiệm cụ thể của từng token và kỹ thuật chuẩn hóa lợi thế mượt mà trong suốt giai đoạn huấn luyện tích lũy. DCPO đạt hiệu suất tiên tiến trên bốn phép đo chuẩn dựa trên bốn mô hình khác nhau, vượt trội hơn các phương pháp hiện có là GRPO, DAPO và GSPO, đặc biệt là trên các phép đo chuẩn AIME24 và AIME25. Hơn nữa, nó cải thiện tỷ lệ độ dốc khác không trung bình 28% so với GRPO, tăng gấp đôi hiệu quả huấn luyện so với DAPO và giảm đáng kể tỷ lệ cắt token.