Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GTPO et GRPO-S : mise en forme des récompenses au niveau des jetons et des séquences avec entropie des politiques

Created by
  • Haebom

Auteur

Hongze Tan, Jianfei Pan

Contour

Cet article explore l'utilisation d'algorithmes d'apprentissage par renforcement, tels que l'optimisation de politique relative de groupe (GRPO), pour améliorer les performances d'inférence des modèles de langage à grande échelle (LLM). L'algorithme GRPO actuel présente des limites dans les tâches d'inférence à longue chaîne en raison de son allocation de crédits grossière, qui applique la même récompense à tous les jetons. Cet article propose la pondération d'entropie dynamique (DEN) pour résoudre ce problème. Partant de l'idée que les jetons présentant une entropie plus élevée dans la bonne réponse peuvent orienter la politique vers des plafonds de performance plus élevés, nous générons des signaux de récompense plus granulaires grâce à deux méthodes. Premièrement, l'optimisation de politique de jeton de groupe (GTPO) attribue des récompenses pondérées par l'entropie à chaque jeton, permettant ainsi une allocation de crédits granulaire. Deuxièmement, l'optimisation de politique relative de groupe au niveau de la séquence (GRPO-S) attribue des récompenses pondérées par l'entropie à chaque séquence en fonction de l'entropie moyenne du jeton de cette séquence. Les résultats expérimentaux démontrent que la méthode proposée surpasse largement le modèle de base robuste DAPO, confirmant que le mécanisme de pondération entropique est le principal moteur de l'amélioration des performances. Cela suggère une meilleure façon d'améliorer l'inférence profonde du modèle.

Takeaways, Limitations

Takeaways:
Nous montrons que les performances d’inférence à longue chaîne de LLM peuvent être améliorées en utilisant des poids d’entropie dynamiques.
Nous proposons que les algorithmes GTPO et GRPO-S surmontent les limites des GRPO existants et permettent une allocation de crédit plus granulaire.
Nous démontrons expérimentalement que le mécanisme de pondération de l’entropie joue un rôle crucial dans l’amélioration de l’inférence profonde dans LLM.
Nous démontrons l’efficacité de la méthode proposée en obtenant de meilleures performances que le modèle de base DAPO.
Limitations:
Des recherches supplémentaires sont nécessaires pour évaluer les performances de généralisation de la méthode proposée.
Davantage de résultats expérimentaux sur différents types de tâches LLM et d’inférence sont nécessaires.
Des recherches supplémentaires pourraient être nécessaires pour déterminer la valeur optimale des poids d’entropie.
Il faudra peut-être tenir compte de l’augmentation des coûts de calcul.
👍