Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Synergie profondeur-étendue dans RLVR : exploiter les gains de raisonnement LLM grâce à l'exploration adaptative

Created by
  • Haebom

Auteur

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Yiwei Wang, Xiaodan Liang, Jing Tang

Contour

Cet article analyse la profondeur et l'étendue, deux facteurs clés pour améliorer les performances d'inférence des modèles de langage dans l'apprentissage par récompense vérifiable basé sur l'apprentissage par renforcement (RLVR). Nous soulignons que l'algorithme GRPO existant, avec son Limitations, surpondère les échantillons de précision moyenne et sous-pondère les échantillons de faible précision, ce qui est crucial pour améliorer les performances d'inférence. Pour remédier à ce problème, nous proposons l'échantillonnage adaptatif à la difficulté (DARS), une technique qui rééquilibre les pondérations par des déploiements en plusieurs étapes sur des problèmes difficiles. De plus, nous présentons une méthode pour étendre l'étendue des données d'apprentissage en augmentant significativement la taille des lots et en utilisant des mises à jour par lots complets sur plusieurs époques au lieu des itérations en mini-lots de PPO. Enfin, nous proposons DARS-B, qui combine DARS avec des lots de grande taille, et démontrons expérimentalement que la profondeur et l'étendue contribuent indépendamment à améliorer les performances d'inférence dans RLVR.

Takeaways, Limitations

Takeaways:
L’importance de la profondeur et de la largeur dans l’algorithme GRPO est révélée dans Limitations.
Amélioration des performances d'inférence du RLVR grâce à la technique DARS qui augmente l'exploration de problèmes difficiles.
Améliorations supplémentaires des performances grâce à l'extension de la portée en utilisant des tailles de lots plus importantes.
DARS-B améliore simultanément la profondeur et la largeur, améliorant ainsi les performances Pass@K et Pass@1.
Démontrer expérimentalement que la profondeur et la largeur fonctionnent indépendamment dans RLVR.
Limitations:
L’efficacité de la méthode proposée peut être limitée à des paramètres et des ensembles de données RLVR spécifiques.
Coût de calcul accru en raison de l’utilisation de lots de grande taille.
Des expériences supplémentaires sur des types de problèmes et des ensembles de données plus diversifiés sont nécessaires.
👍