Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RL-PLUS : Contrer l'effondrement des limites de capacité des LLM en apprentissage par renforcement grâce à l'optimisation des politiques hybrides

Created by
  • Haebom

Auteur

Yihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li

Contour

Cet article souligne que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) a amélioré les capacités d'inférence complexes des modèles linguistiques à grande échelle (LLM). Cependant, en raison de sa stratégie inhérente, du vaste champ d'action du LLM et de la rareté des récompenses, il peine à surmonter les limites inhérentes à ce dernier. De plus, le RLVR peut entraîner l'effondrement des limites de capacité du LLM, réduisant ainsi son champ de résolution de problèmes. Pour remédier à ce problème, cet article propose RL-PLUS, une nouvelle approche hybride d'optimisation des politiques qui combine de manière synergique des données internes et externes pour obtenir de meilleures capacités d'inférence et surmonter les limites du modèle sous-jacent. RL-PLUS intègre deux composantes clés : l'échantillonnage multi-importance pour remédier à l'inadéquation distributionnelle des données externes, et une fonction d'avantage basée sur l'exploration pour guider le modèle vers des chemins d'inférence inexplorés et de grande valeur. Grâce à une analyse théorique et à des expériences approfondies, cet article démontre la supériorité et la généralisabilité de l'approche proposée.

Takeaways, Limitations

Takeaways:
RL-PLUS atteint des performances de pointe sur six critères d'inférence mathématique, surpassant les méthodes RLVR existantes.
Il a montré d’excellentes performances sur six tâches d’inférence hors distribution.
Nous avons observé des améliorations de performances constantes et significatives dans différentes familles de modèles, avec des améliorations relatives moyennes atteignant jusqu'à 69,2 %.
RL-PLUS résout efficacement le problème de l’effondrement des limites de capacité.
Limitations:
L'article ne mentionne pas explicitement le Limitations de RL-PLUS. Des recherches supplémentaires sont nécessaires pour élucider le Limitations spécifique. Par exemple, une analyse plus approfondie de l'efficacité de l'échantillonnage multi-importance et des fonctions d'avantage basées sur la recherche pourrait être nécessaire. De plus, la généralisabilité à certains types de problèmes ou d'architectures LLM pourrait être limitée.
👍