Français Cet article présente trois inconvénients Limitations (plateau de performance, efficacité limitée de l'autoréflexion et échec persistant) de l'apprentissage par renforcement (RL) utilisant uniquement la rétroaction numérique, et propose Critique-GRPO, un nouveau cadre d'RL qui intègre la critique du langage naturel pour les surmonter. Critique-GRPO effectue l'optimisation des politiques en utilisant simultanément la rétroaction numérique et la critique du langage naturel, et en particulier, il utilise une fonction de mise en forme qui renforce la récompense pour les réponses correctes et pénalise les réponses incorrectes. Les résultats expérimentaux utilisant les modèles Qwen2.5-7B-Base, Qwen2.5-Math-7B-Base et Qwen3-8B montrent que Critique-GRPO surpasse l'apprentissage supervisé conventionnel et les méthodes de réglage fin basées sur l'RL sur huit tâches d'inférence différentes, et est particulièrement efficace dans l'auto-amélioration par l'autocritique et le transfert d'apprentissage de la généralisation faible à la généralisation forte.