Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GTPO et GRPO-S : mise en forme des récompenses au niveau des jetons et des séquences avec entropie des politiques

Created by
  • Haebom

Auteur

Hongze Tan, Jianfei Pan

Contour

Cet article explore l'utilisation d'algorithmes d'apprentissage par renforcement, tels que l'optimisation de politique relative de groupe (GRPO), pour améliorer les performances d'inférence des modèles de langage à grande échelle (LLM). L'optimisation de politique relative de groupe conventionnelle, qui applique la même récompense à tous les jetons d'une séquence, présente des limites dans les tâches d'inférence à long terme en raison de son allocation de crédits approximative. Pour remédier à ce problème, nous proposons une technique de pondération entropique dynamique. Partant de l'idée fondamentale selon laquelle les jetons présentant une entropie élevée dans la bonne réponse améliorent les performances, nous générons des signaux de récompense plus granulaires grâce à deux méthodes. Premièrement, l'optimisation de politique relative de groupe (GTPO) attribue des récompenses pondérées par l'entropie à chaque jeton, permettant ainsi une allocation de crédits plus fine. Deuxièmement, l'optimisation de politique relative de groupe au niveau de la séquence (GRPO-S) attribue des récompenses pondérées par l'entropie à chaque séquence en fonction de l'entropie moyenne de chaque jeton. Les résultats expérimentaux démontrent que la méthode proposée surpasse considérablement le modèle de base robuste DAPO, confirmant que le mécanisme de pondération de l'entropie est le principal moteur de l'amélioration des performances.

Takeaways, Limitations_

Takeaways:
Une nouvelle technique d’apprentissage par renforcement est présentée pour améliorer la capacité d’inférence à long terme du LLM.
Nous présentons le potentiel d’amélioration des performances grâce à une allocation de crédit fine utilisant une pondération d’entropie dynamique.
Deux approches sont présentées : GTPO et GRPO-S.
Efficacité vérifiée par l'amélioration des performances par rapport au modèle de référence DAPO.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
D’autres expérimentations avec différents LLM et emplois sont nécessaires.
Des recherches supplémentaires sont nécessaires sur la manière d’optimiser les poids d’entropie.
Augmentation potentielle des coûts de calcul.
👍