[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Développer l'apprentissage par renforcement : libérer la diversité des raisonnements dans les LLM grâce à une formation prolongée

Created by
  • Haebom

Auteur

Mingjie Liu, Shizhe Diao, Jian Hu, Ximing Lu,

Contour

Nous présentons les résultats d'une étude appliquant l'apprentissage par renforcement à long terme à des modèles linguistiques à petite échelle afin d'améliorer les performances dans divers domaines d'inférence tels que les mathématiques, le codage et les énigmes logiques. Nous avons réalisé un entraînement efficace en utilisant des signaux de récompense vérifiables, en améliorant l'optimisation de la politique relative de groupe (GRPO) et en contrôlant la régularisation KL, le taux d'écrêtage et la réinitialisation périodique de la politique de référence afin d'améliorer la stabilité de l'entraînement et les performances de généralisation. Nous avons ainsi constaté des améliorations significatives des performances par rapport aux modèles de pointe existants en mathématiques (+14,7 %), en codage (+13,9 %) et en énigmes logiques (+54,8 %). Nous rendons publics les modèles entraînés afin de soutenir les recherches ultérieures.

Takeaways, Limitations

Takeaways:
Possibilité d'améliorer la capacité d'inférence de petits modèles de langage grâce à l'apprentissage par renforcement à long terme
Démontrer l'efficacité des signaux de récompense vérifiables, des améliorations du GRPO et des techniques d'amélioration de la stabilité de l'entraînement
Amélioration des performances dans divers domaines de raisonnement (mathématiques, codage, énigmes logiques)
Contribuer à l'activation de la recherche par la divulgation publique des modèles formés
Limitations:
Le sujet de recherche est un petit modèle de langage. Ses performances appliquées à un modèle à grande échelle n'ont pas été confirmées.
Manque d'analyse approfondie de l'efficacité de techniques spécifiques. Une analyse quantitative de la contribution de chaque technique est nécessaire.
Manque de description détaillée des ensembles de données utilisés et des types de tâches. Une validation supplémentaire de la généralisabilité est nécessaire.
👍