Bài báo này trình bày ba thiếu sót Limitations (trì trệ, hiệu quả hạn chế của việc tự phản ánh và thất bại dai dẳng) của học tăng cường (RL) chỉ sử dụng phản hồi số và đề xuất Critique-GRPO, một khuôn khổ RL mới tích hợp phê bình ngôn ngữ tự nhiên để khắc phục những thiếu sót này. Critique-GRPO thực hiện tối ưu hóa chính sách bằng cách đồng thời sử dụng phản hồi số và phê bình ngôn ngữ tự nhiên, và đặc biệt, nó sử dụng một hàm định hình để củng cố phần thưởng cho câu trả lời đúng và phạt câu trả lời sai. Kết quả thực nghiệm sử dụng các mô hình Qwen2.5-7B-Base, Qwen2.5-Math-7B-Base và Qwen3-8B cho thấy Critique-GRPO vượt trội hơn các phương pháp học có giám sát thông thường và các phương pháp tinh chỉnh dựa trên RL trên tám nhiệm vụ suy luận khác nhau và đặc biệt hiệu quả trong việc tự cải thiện thông qua tự phê bình và chuyển giao học tập từ khái quát yếu sang mạnh.