Cet article explore l'utilisation d'algorithmes d'apprentissage par renforcement, tels que l'optimisation de politique relative de groupe (GRPO), pour améliorer les performances d'inférence des modèles de langage à grande échelle (LLM). L'algorithme GRPO actuel présente des limites dans les tâches d'inférence à longue chaîne en raison de son allocation de crédits grossière, qui applique la même récompense à tous les jetons. Cet article propose la pondération d'entropie dynamique (DEN) pour résoudre ce problème. Partant de l'idée que les jetons présentant une entropie plus élevée dans la bonne réponse peuvent orienter la politique vers des plafonds de performance plus élevés, nous générons des signaux de récompense plus granulaires grâce à deux méthodes. Premièrement, l'optimisation de politique de jeton de groupe (GTPO) attribue des récompenses pondérées par l'entropie à chaque jeton, permettant ainsi une allocation de crédits granulaire. Deuxièmement, l'optimisation de politique relative de groupe au niveau de la séquence (GRPO-S) attribue des récompenses pondérées par l'entropie à chaque séquence en fonction de l'entropie moyenne du jeton de cette séquence. Les résultats expérimentaux démontrent que la méthode proposée surpasse largement le modèle de base robuste DAPO, confirmant que le mécanisme de pondération entropique est le principal moteur de l'amélioration des performances. Cela suggère une meilleure façon d'améliorer l'inférence profonde du modèle.