Cet article propose ReST-RL, un nouveau paradigme d'apprentissage par renforcement (RL) pour améliorer la précision d'inférence des modèles de langage à grande échelle (LLM). Cette approche aborde la faible variance de récompense de la méthode d'apprentissage par renforcement (RL) existante, GRPO, ainsi que les problèmes d'efficacité d'acquisition et de vérification des données de la méthode de vérification basée sur le modèle de récompense de processus (PRM). ReST-RL améliore la capacité d'inférence de code des LLM en combinant un algorithme GRPO amélioré avec une méthode de décodage au moment du test utilisant un modèle de valeur (VM). Tout d'abord, ReST-GRPO filtre et combine les données d'apprentissage à forte valeur ajoutée via un algorithme ReST optimisé afin d'augmenter la variance de récompense du GRPO et d'effectuer un apprentissage efficace. Ensuite, il entraîne le VM en collectant des cibles de valeur précises sans annotations grâce à une méthode d'optimisation du décodage au moment du test appelée VM-MCTS. Lors du décodage, il fournit des signaux de processus et des scores de vérification précis grâce à un algorithme MCTS adaptatif, améliorant ainsi la précision d'inférence des LLM. Expérimentalement, nous démontrons que ReST-RL surpasse les méthodes existantes sur divers benchmarks de codage, notamment APPS, BigCodeBench et HumanEval.