Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RL-PLUS : Contrer l'effondrement des limites de capacité des LLM en apprentissage par renforcement grâce à l'optimisation des politiques hybrides

Created by
  • Haebom

Auteur

Yihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li

Contour

Cet article souligne les lacunes de Limitations dans la recherche sur l'amélioration de la capacité d'inférence des modèles de langage à grande échelle (LLM) en utilisant des récompenses vérifiables basées sur l'apprentissage par renforcement, et propose RL-PLUS, une nouvelle technique hybride d'optimisation des politiques pour surmonter ces lacunes. RL-PLUS aborde le problème de l'effondrement des limites de capacité, une limitation des méthodes RLVR existantes, en exploitant l'exploration interne et les données externes, obtenant ainsi une capacité d'inférence améliorée. Ses composants principaux comprennent l'échantillonnage à importance multiple (MIS) et une fonction d'avantage basée sur l'exploration (EBA), qui abordent le problème de l'inadéquation de la distribution des données externes et le problème de l'exploration des chemins d'inférence inexplorés. Les résultats expérimentaux démontrent que RL-PLUS atteint des performances de pointe sur plusieurs benchmarks d'inférence mathématique et tâches d'inférence hors distribution, avec une amélioration moyenne des performances de 69,2 % sur différents modèles. L'analyse de la courbe Pass@k confirme en outre son efficacité pour résoudre le problème de l'effondrement des limites de capacité.

Takeaways, Limitations_

Takeaways:
Une nouvelle méthode est proposée pour résoudre efficacement le problème de l'effondrement des limites de capacité des RLVR existants, Limitations.
Atteindre des performances de pointe dans les tâches de raisonnement mathématique et d'inférence non distributionnelle.
Améliorations constantes et significatives des performances sur une variété de modèles LLM.
Capacités de raisonnement améliorées grâce à la synergie de l’exploration interne et de l’utilisation des données externes.
Utilisation efficace de l’échantillonnage multi-importance et des fonctions d’avantage basées sur la recherche.
Limitations:
Une analyse plus approfondie du coût de calcul et de la complexité de la méthode proposée est nécessaire.
Il est nécessaire de vérifier les performances de généralisation pour des domaines de problèmes plus divers et plus complexes.
Il est nécessaire d’évaluer la dépendance à la qualité et à la quantité des données externes.
👍