Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Critique-GRPO : Faire progresser le raisonnement LLM grâce au langage naturel et au retour numérique

Created by
  • Haebom

Auteur

Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng

Contour

Cet article identifie trois inconvénients majeurs de l'apprentissage par renforcement (RL) reposant uniquement sur des récompenses numériques : des plateaux de performance, une efficacité limitée de l'autoréflexion et des échecs persistants. Pour surmonter ces inconvénients, nous proposons Critique-GRPO, un nouveau cadre d'apprentissage par renforcement intégrant la critique du langage naturel. Critique-GRPO optimise les politiques en exploitant simultanément les retours numériques et en langage naturel, et utilise une fonction de mise en forme qui renforce l'apprentissage pour les corrections correctes et pénalise les corrections incorrectes. Les résultats expérimentaux obtenus avec les modèles Qwen2.5 et Qwen3 montrent que Critique-GRPO surpasse systématiquement les méthodes d'apprentissage supervisé et de réglage fin basées sur l'RL existantes sur huit tâches complexes de mathématiques, de STEM et de raisonnement général, améliorant les scores de réussite à la première tentative d'environ 4,4 % (Qwen2.5-7B-Base) et 3,8 % (Qwen3-8B), respectivement, en moyenne. En particulier, l'effet d'auto-amélioration par l'autocritique a été excellent, atteignant une amélioration pass@1 de +16,7% par rapport au GRPO (AIME 2024).

Takeaways, Limitations

Takeaways:
Nous démontrons l’utilité de la critique du langage naturel pour résoudre les problèmes d’apprentissage par renforcement pour les modèles linguistiques à grande échelle où la rétroaction numérique seule est limitée.
Critique-GRPO fournit un nouveau cadre d'apprentissage par renforcement qui intègre efficacement le retour d'information numérique et en langage naturel pour obtenir des améliorations de performances.
Démontre le potentiel de maximisation de l’amélioration des performances grâce à l’auto-amélioration par l’autocritique.
Performances supérieures vérifiées par rapport aux méthodes existantes dans diverses tâches d'inférence.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une évaluation de l’évolutivité des LLM de différentes tailles et types est nécessaire.
La nécessité d’évaluer la dépendance de la critique en langage naturel à la qualité et à sa robustesse.
Des recherches supplémentaires sont nécessaires pour définir les paramètres optimaux de la fonction de mise en forme.
👍