Este artículo presenta tres desventajas Limitations (metastasis de rendimiento, efectividad limitada de la autorreflexión y falla persistente) del aprendizaje por refuerzo (RL) utilizando solo retroalimentación numérica, y propone Critique-GRPO, un novedoso marco de RL que integra la crítica del lenguaje natural para superarlas. Critique-GRPO optimiza políticas utilizando simultáneamente retroalimentación numérica y crítica del lenguaje natural, y en particular, utiliza una función de modelado que refuerza la recompensa por las respuestas correctas y penaliza las incorrectas. Los resultados experimentales utilizando los modelos Qwen2.5-7B-Base, Qwen2.5-Math-7B-Base y Qwen3-8B muestran que Critique-GRPO supera el aprendizaje supervisado convencional y los métodos de ajuste fino basados en RL en ocho tareas de inferencia diferentes, y es especialmente efectivo en la autosuperación a través de la autocrítica y el aprendizaje por transferencia de generalización débil a fuerte.