Cet article explore l'utilisation d'algorithmes d'apprentissage par renforcement, tels que l'optimisation de politique relative de groupe (GRPO), pour améliorer les performances d'inférence des modèles de langage à grande échelle (LLM). L'optimisation de politique relative de groupe conventionnelle, qui applique la même récompense à tous les jetons d'une séquence, présente des limites dans les tâches d'inférence à long terme en raison de son allocation de crédits approximative. Pour remédier à ce problème, nous proposons une technique de pondération entropique dynamique. Partant de l'idée fondamentale selon laquelle les jetons présentant une entropie élevée dans la bonne réponse améliorent les performances, nous générons des signaux de récompense plus granulaires grâce à deux méthodes. Premièrement, l'optimisation de politique relative de groupe (GTPO) attribue des récompenses pondérées par l'entropie à chaque jeton, permettant ainsi une allocation de crédits plus fine. Deuxièmement, l'optimisation de politique relative de groupe au niveau de la séquence (GRPO-S) attribue des récompenses pondérées par l'entropie à chaque séquence en fonction de l'entropie moyenne de chaque jeton. Les résultats expérimentaux démontrent que la méthode proposée surpasse considérablement le modèle de base robuste DAPO, confirmant que le mécanisme de pondération de l'entropie est le principal moteur de l'amélioration des performances.