Este artículo identifica tres desventajas principales del aprendizaje por refuerzo (AR) basado exclusivamente en recompensas numéricas: estancamiento en el rendimiento, efectividad limitada de la autorreflexión y fallos persistentes. Para superar estas desventajas, proponemos Critique-GRPO, un novedoso marco de aprendizaje por refuerzo que integra la crítica del lenguaje natural. Critique-GRPO optimiza las políticas aprovechando simultáneamente la retroalimentación numérica y del lenguaje natural, y emplea una función de modelado que refuerza el aprendizaje para las correcciones correctas y penaliza las incorrectas. Los resultados experimentales con los modelos Qwen2.5 y Qwen3 muestran que Critique-GRPO supera consistentemente a los métodos existentes de aprendizaje supervisado y ajuste fino basados en el AR en ocho tareas desafiantes de matemáticas, STEM y razonamiento general, mejorando las puntuaciones de aprobado en aproximadamente un 4,4 % (Qwen2.5-7B-Base) y un 3,8 % (Qwen3-8B), respectivamente, en promedio. En particular, el efecto de autosuperación a través de la autocrítica fue excelente, lográndose una mejora de aprobado@1 de +16,7% en comparación con GRPO (AIME 2024).