Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ReST-RL : Réaliser un raisonnement précis du code des LLM grâce à une autoformation et un décodage optimisés

Created by
  • Haebom

Auteur

Sining Zhoubian, Dan Zhang, Yuxiao Dong, Jie Tang

Contour

Cet article propose ReST-RL, un nouveau paradigme d'apprentissage par renforcement (RL) pour améliorer la précision d'inférence des modèles de langage à grande échelle (LLM). Cette approche aborde la faible variance de récompense de la méthode d'apprentissage par renforcement (RL) existante, GRPO, ainsi que les problèmes d'efficacité d'acquisition et de vérification des données de la méthode de vérification basée sur le modèle de récompense de processus (PRM). ReST-RL améliore la capacité d'inférence de code des LLM en combinant un algorithme GRPO amélioré avec une méthode de décodage au moment du test utilisant un modèle de valeur (VM). Tout d'abord, ReST-GRPO filtre et combine les données d'apprentissage à forte valeur ajoutée via un algorithme ReST optimisé afin d'augmenter la variance de récompense du GRPO et d'effectuer un apprentissage efficace. Ensuite, il entraîne le VM en collectant des cibles de valeur précises sans annotations grâce à une méthode d'optimisation du décodage au moment du test appelée VM-MCTS. Lors du décodage, il fournit des signaux de processus et des scores de vérification précis grâce à un algorithme MCTS adaptatif, améliorant ainsi la précision d'inférence des LLM. Expérimentalement, nous démontrons que ReST-RL surpasse les méthodes existantes sur divers benchmarks de codage, notamment APPS, BigCodeBench et HumanEval.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau paradigme RL, ReST-RL, qui surmonte le problème de distribution des récompenses de GRPO et les limites des méthodes de vérification basées sur PRM.
Sélection et utilisation efficaces de données d’apprentissage de grande valeur grâce à l’algorithme ReST.
Collecte précise des valeurs cibles sans annotation via VM-MCTS et fourniture de signaux de processus précis et de scores de vérification basés sur VM.
A démontré des performances supérieures par rapport aux méthodes existantes dans divers tests de codage.
Présentation de solutions pratiques pour améliorer les capacités d'inférence de code du LLM.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralité de la méthode proposée et son applicabilité à d’autres types de problèmes d’inférence.
Une analyse plus approfondie du coût de calcul et de l’évolutivité du VM-MCTS est nécessaire.
Limitée à l'évaluation des performances pour des repères de codage spécifiques, une vérification supplémentaire de la généralisabilité à d'autres domaines est nécessaire.
👍