Bài báo này khám phá việc sử dụng các thuật toán học tăng cường, chẳng hạn như Tối ưu hóa Chính sách Tương đối Nhóm (GRPO), để cải thiện hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM). Các GRPO hiện tại gặp phải những hạn chế trong các tác vụ suy luận dài hạn do phân bổ tín dụng thô, áp dụng cùng một phần thưởng cho tất cả các mã thông báo trong một chuỗi. Để giải quyết vấn đề này, chúng tôi đề xuất một kỹ thuật trọng số entropy động. Dựa trên ý tưởng cốt lõi rằng các mã thông báo có entropy cao trong câu trả lời đúng sẽ dẫn đến hiệu suất cao hơn, chúng tôi tạo ra các tín hiệu phần thưởng chi tiết hơn thông qua hai phương pháp. Đầu tiên, **Tối ưu hóa Chính sách Mã thông báo Nhóm (GTPO)** gán phần thưởng có trọng số entropy cho mỗi mã thông báo, đạt được phân bổ tín dụng chi tiết. Thứ hai, **Tối ưu hóa Chính sách Tương đối Nhóm Cấp Chuỗi (GRPO-S)** gán phần thưởng có trọng số entropy cho mỗi chuỗi dựa trên entropy mã thông báo trung bình của chuỗi đó. Kết quả thử nghiệm chứng minh rằng phương pháp được đề xuất vượt trội đáng kể so với mô hình cơ sở DAPO mạnh mẽ, xác nhận rằng cơ chế trọng số entropy là động lực chính của việc cải thiện hiệu suất.