[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Critique-GRPO : Faire progresser le raisonnement LLM grâce au langage naturel et au retour numérique

Created by
  • Haebom

Auteur

Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng

Contour

Français Cet article présente trois inconvénients Limitations (plateau de performance, efficacité limitée de l'autoréflexion et échec persistant) de l'apprentissage par renforcement (RL) utilisant uniquement la rétroaction numérique, et propose Critique-GRPO, un nouveau cadre d'RL qui intègre la critique du langage naturel pour les surmonter. Critique-GRPO effectue l'optimisation des politiques en utilisant simultanément la rétroaction numérique et la critique du langage naturel, et en particulier, il utilise une fonction de mise en forme qui renforce la récompense pour les réponses correctes et pénalise les réponses incorrectes. Les résultats expérimentaux utilisant les modèles Qwen2.5-7B-Base, Qwen2.5-Math-7B-Base et Qwen3-8B montrent que Critique-GRPO surpasse l'apprentissage supervisé conventionnel et les méthodes de réglage fin basées sur l'RL sur huit tâches d'inférence différentes, et est particulièrement efficace dans l'auto-amélioration par l'autocritique et le transfert d'apprentissage de la généralisation faible à la généralisation forte.

Takeaways, Limitations

Takeaways:
Nous présentons la possibilité d'intégrer la critique du langage naturel pour résoudre le problème de l'apprentissage par renforcement pour les modèles linguistiques à grande échelle, qui est limité par le seul retour numérique.
Critique-GRPO offre de meilleures performances que les méthodes RL existantes. Il est particulièrement efficace pour améliorer les performances grâce à l'autocritique et à la généralisation.
Montre des performances améliorées sur divers types de problèmes de raisonnement (mathématiques, STEM, raisonnement général).
Limitations:
Critique-GRPO est proposé comme solution aux trois Limitations (plateau de performance, efficacité limitée de l'auto-réflexion et échec persistant) présentés, mais d'autres types de Limitations ne sont pas pris en compte.
L'efficacité de Critique-GRPO pourrait être limitée à certains modèles et tâches. Des expériences supplémentaires sur divers modèles et tâches sont nécessaires.
Il peut exister une forte dépendance à la qualité de la critique en langage naturel. Une dégradation des performances est possible lorsque la qualité de la critique se détériore.
👍