Cet article analyse deux problèmes clés de l'optimisation de politique relative au groupe (GRPO) : (i) les mises à jour de gradient conflictuelles qui se produisent lorsque les jetons reçoivent des récompenses positives et négatives, et (ii) le problème des versions finales récompensées négativement qui pénalisent les réponses confiantes et orientent les décisions du modèle vers des jetons moins probables, aplatissant la distribution de sortie et entravant l'apprentissage. Pour résoudre ces problèmes, cet article propose une optimisation de politique basée sur la trajectoire relative au groupe (GTPO), qui identifie les jetons conflictuels et amplifie les mises à jour positives tout en ignorant les négatives. De plus, elle empêche l'effondrement de la politique en filtrant les versions finales dont l'entropie dépasse un certain seuil. Contrairement à GRPO, GTPO ne repose pas sur la régularisation par divergence KL, éliminant ainsi le besoin d'un modèle de référence pendant l'apprentissage. Nous démontrons une amélioration des performances et de la stabilité grâce à de multiples expériences sur les benchmarks GSM8K, MATH et AIME 2024.