Cet article identifie et analyse deux problèmes majeurs de l'optimisation traditionnelle des politiques relatives au groupe (GRPO) : (i) l'apparition fréquente de jetons dans les complétions avec des récompenses positives et négatives, ce qui entraîne des mises à jour de gradient conflictuelles et une diminution des probabilités de sortie ; et (ii) les complétions négativement récompensées pénalisent les réponses confiantes et déplacent les décisions du modèle vers des jetons improbables, aplatissant la distribution de sortie et entravant l'apprentissage. Pour résoudre ces problèmes, cet article propose une optimisation des politiques basée sur la trajectoire relative au groupe (GTPO). GTPO identifie les jetons conflictuels qui coexistent dans les complétions avec des récompenses conflictuelles et les protège en amplifiant les mises à jour positives tout en ignorant les négatives. De plus, pour éviter l'effondrement des politiques, GTPO filtre les complétions dont l'entropie dépasse un seuil prouvable. Contrairement à GRPO, GTPO ne s'appuie pas sur la régularisation par divergence KL ; il ne nécessite donc pas de modèle de référence pendant l'apprentissage. De multiples expériences sur les benchmarks GSM8K, MATH et AIME 2024 démontrent que GTPO offre une plus grande stabilité d'apprentissage et de meilleures performances.