Cet article identifie trois inconvénients majeurs de l'apprentissage par renforcement (RL) reposant uniquement sur des récompenses numériques : des plateaux de performance, une efficacité limitée de l'autoréflexion et des échecs persistants. Pour surmonter ces inconvénients, nous proposons Critique-GRPO, un nouveau cadre d'apprentissage par renforcement intégrant la critique du langage naturel. Critique-GRPO optimise les politiques en exploitant simultanément les retours numériques et en langage naturel, et utilise une fonction de mise en forme qui renforce l'apprentissage pour les corrections correctes et pénalise les corrections incorrectes. Les résultats expérimentaux obtenus avec les modèles Qwen2.5 et Qwen3 montrent que Critique-GRPO surpasse systématiquement les méthodes d'apprentissage supervisé et de réglage fin basées sur l'RL existantes sur huit tâches complexes de mathématiques, de STEM et de raisonnement général, améliorant les scores de réussite à la première tentative d'environ 4,4 % (Qwen2.5-7B-Base) et 3,8 % (Qwen3-8B), respectivement, en moyenne. En particulier, l'effet d'auto-amélioration par l'autocritique a été excellent, atteignant une amélioration pass@1 de +16,7% par rapport au GRPO (AIME 2024).