Bài báo này xác định ba nhược điểm chính của học tăng cường (RL) chỉ dựa vào phần thưởng số: hiệu suất đạt mức ổn định, hiệu quả hạn chế của việc tự phản ánh và thất bại dai dẳng. Để khắc phục những nhược điểm này, chúng tôi đề xuất Critique-GRPO, một khuôn khổ học tăng cường mới tích hợp phê bình ngôn ngữ tự nhiên. Critique-GRPO thực hiện tối ưu hóa chính sách bằng cách đồng thời tận dụng cả phản hồi số và ngôn ngữ tự nhiên và sử dụng hàm định hình để củng cố việc học đối với các sửa lỗi đúng và phạt các lỗi sai. Kết quả thử nghiệm sử dụng các mô hình Qwen2.5 và Qwen3 cho thấy Critique-GRPO luôn vượt trội hơn các phương pháp học có giám sát hiện có và các phương pháp tinh chỉnh dựa trên RL trên tám nhiệm vụ toán học, STEM và suy luận chung đầy thách thức, cải thiện điểm pass@1 lần lượt khoảng 4,4% (Qwen2.5-7B-Base) và 3,8% (Qwen3-8B). Đặc biệt, hiệu quả tự cải thiện thông qua tự phê bình rất tuyệt vời, đạt mức cải thiện pass@1 là +16,7% so với GRPO (AIME 2024).