Bài báo này khám phá việc sử dụng các thuật toán học tăng cường, chẳng hạn như Tối ưu hóa Chính sách Tương đối Nhóm (GRPO), để cải thiện hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM). GRPO hiện tại gặp phải những hạn chế trong các tác vụ suy luận chuỗi dài do phân bổ tín dụng thô, áp dụng cùng một phần thưởng cho tất cả các mã thông báo. Bài báo này đề xuất Trọng số Entropy Động (DEN) để giải quyết vấn đề này. Dựa trên ý tưởng rằng các mã thông báo có entropy cao hơn trong câu trả lời đúng có thể hướng chính sách hướng tới các mức hiệu suất cao hơn, chúng tôi tạo ra các tín hiệu phần thưởng chi tiết hơn thông qua hai phương pháp. Thứ nhất, Tối ưu hóa Chính sách Mã thông báo Nhóm (GTPO) gán phần thưởng có trọng số entropy cho mỗi mã thông báo, đạt được phân bổ tín dụng chi tiết. Thứ hai, Tối ưu hóa Chính sách Tương đối Nhóm Cấp Chuỗi (GRPO-S) gán phần thưởng có trọng số entropy cho mỗi chuỗi dựa trên entropy mã thông báo trung bình của chuỗi đó. Kết quả thử nghiệm chứng minh rằng phương pháp được đề xuất vượt trội đáng kể so với mô hình cơ sở DAPO mạnh mẽ, xác nhận rằng cơ chế trọng số entropy là động lực chính thúc đẩy cải thiện hiệu suất. Điều này gợi ý một cách tốt hơn để cải thiện khả năng suy luận sâu của mô hình.