[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GHPO : Guidage adaptatif pour un apprentissage par renforcement LLM stable et efficace

Created by
  • Haebom

Auteur

Ziru Liu, Cheng Gong, Xinyu Fu, Yaofang Liu, Ran Chen, Shoubo Hu, Suiyun Zhang, Rui Liu, Qingfu Zhang, Dandan Tu

Contour

Dans cet article, nous présentons un nouveau cadre d'apprentissage par renforcement sensible à la difficulté, l'optimisation hybride guidée des politiques (GHPO), pour résoudre le problème de l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une méthode d'apprentissage par renforcement visant à améliorer la capacité d'inférence complexe des modèles linguistiques à grande échelle (LLM). GHPO crée un processus d'apprentissage efficace en ajustant dynamiquement la difficulté de la tâche grâce à une amélioration adaptative des invites, en appliquant l'apprentissage par imitation directe pour les problèmes dépassant les capacités actuelles du modèle et l'apprentissage par renforcement basé sur l'exploration pour les problèmes gérables. Nous démontrons expérimentalement que notre approche améliore la stabilité de l'apprentissage et les performances d'inférence finale de 5 % en moyenne par rapport aux techniques de pointe d'apprentissage par renforcement et d'apprentissage curriculaire sur six critères mathématiques.

Takeaways, Limitations

Takeaways:
Nous montrons que l’ajustement dynamique de la difficulté par l’amélioration adaptative des invites est efficace pour améliorer la capacité de raisonnement des LLM.
Nous démontrons que le GHPO est supérieur aux méthodes d’apprentissage par renforcement et d’apprentissage curriculaire existantes en termes de stabilité et de performance d’apprentissage.
Présentation d'une nouvelle approche de l'apprentissage efficace dans les petits LLM.
Démontre des améliorations substantielles des performances en matière d’amélioration des compétences en résolution de problèmes mathématiques.
Limitations:
Le benchmark présenté est limité aux problèmes mathématiques et des recherches supplémentaires sont nécessaires pour déterminer sa généralisabilité à d’autres domaines.
Une analyse plus approfondie est nécessaire sur l’applicabilité générale et les limites de la stratégie d’amélioration rapide et adaptative du GHPO.
Il existe un manque de résultats expérimentaux pour les LLM de différentes tailles.
Une analyse plus approfondie des coûts de calcul et de l’efficacité du GHPO est nécessaire.
👍