Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimisation des récompenses de processus autoguidées avec un avantage étape par étape redéfini pour l'apprentissage par renforcement des processus

Created by
  • Haebom

Auteur

Wu Fei, Hao Kong, Shuxian Liang, Yang Lin, Yibo Yang, Jing Tang, Lei Chen, Xiansheng Hua

Contour

Dans cet article, nous proposons un cadre d'optimisation autoguidée des récompenses de processus (SPRO) pour remédier au coût de calcul élevé de l'apprentissage par renforcement des processus (PRL), qui a montré un potentiel significatif pour améliorer la capacité d'inférence des modèles de langage à grande échelle (LLM), et à l'absence d'un cadre théorique unifié pour l'estimation des avantages au niveau des processus. SPRO permet un RL sensible aux processus grâce à deux innovations clés : la preuve théorique que les récompenses de processus peuvent être dérivées du modèle de politique lui-même, et l'introduction de récompenses cumulatives de processus bien définies et d'avantages par étape masquée (MSA) pour permettre une estimation stricte des avantages d'action étape par étape au sein d'un groupe d'échantillonnage d'invite partagé. Les résultats expérimentaux montrent que SPRO atteint une efficacité d'apprentissage 3,4 fois supérieure et une précision de test améliorée de 17,5 % par rapport au GRPO conventionnel. De plus, nous démontrons une exploration et une prévention suffisantes du piratage des récompenses en réduisant la longueur moyenne des réponses d'environ 1/3 tout en maintenant une entropie de politique stable et élevée tout au long du processus d'apprentissage. En particulier, SPRO est avantageux pour la mise en œuvre industrielle car il n'entraîne pas de coûts de calcul supplémentaires par rapport aux méthodes RL supervisées par les résultats telles que GRPO.

Takeaways, Limitations

Takeaways:
Nous proposons SPRO, un nouveau cadre qui répond efficacement au problème du coût de calcul de l'apprentissage par renforcement des processus.
Obtenez une efficacité de formation et une précision de test améliorées par rapport aux méthodes existantes.
Exploration efficace et prévention du piratage de récompenses grâce au maintien d'une entropie de politique stable et au raccourcissement de la durée de réponse.
Applicabilité industrielle accrue en permettant un apprentissage par renforcement sensible aux processus sans coût de calcul supplémentaire.
Limitations:
Une vérification supplémentaire de la généralisabilité des preuves théoriques et des résultats expérimentaux présentés est nécessaire.
Il est nécessaire d’évaluer l’applicabilité et les performances de SPRO pour diverses architectures et tâches LLM.
Une description et une analyse plus détaillées de la conception et des paramètres du MSA sont nécessaires.
👍