Este artículo analiza dos problemas clave de la Optimización de Políticas Relativa a Grupos (GRPO) tradicional: (i) las actualizaciones de gradiente conflictivas que ocurren cuando los tokens reciben recompensas tanto positivas como negativas, y (ii) el problema de que las versiones finales con recompensas negativas penalizan las respuestas confiables y desplazan las decisiones del modelo hacia tokens menos probables, aplanando la distribución de salida e impidiendo el aprendizaje. Para abordar estos problemas, este artículo propone la Optimización de Políticas Relativa a Grupos basada en Trayectorias (GTPO), que identifica tokens conflictivos y amplifica las actualizaciones positivas, mientras que omite las negativas. Además, previene el colapso de la política filtrando las versiones finales cuya entropía excede un cierto umbral. A diferencia de GRPO, GTPO no depende de la regularización de divergencia KL, eliminando la necesidad de un modelo de referencia durante el entrenamiento. Demostramos un rendimiento y una estabilidad mejorados mediante múltiples experimentos en los benchmarks GSM8K, MATH y AIME 2024.