본 논문은 기존의 그룹 상대 정책 최적화(GRPO)의 두 가지 주요 한계점, 즉 (i) 토큰이 긍정적 및 부정적 보상을 모두 가진 완성본에 자주 나타나 상반되는 기울기 업데이트를 유발하여 출력 확률을 감소시키는 문제와 (ii) 부정적 보상을 받은 완성본이 자신감 있는 응답을 벌하고, 모델의 결정을 있을 법하지 않은 토큰으로 이동시켜 출력 분포를 평평하게 하고 학습을 저하시키는 문제를 밝히고 분석합니다. 이러한 문제를 해결하기 위해, 본 논문은 그룹 상대 궤적 기반 정책 최적화(GTPO)를 제시합니다. GTPO는 상반되는 보상을 가진 완성본에서 같은 위치에 나타나는 충돌 토큰을 식별하고, 부정적 업데이트는 건너뛰면서 긍정적 업데이트는 증폭하여 이를 보호합니다. 또한, 정책 붕괴를 방지하기 위해, GTPO는 엔트로피가 증명 가능한 임계값을 초과하는 완성본을 필터링합니다. GTPO는 GRPO와 달리 KL-divergence 정규화에 의존하지 않으므로 훈련 중 참조 모델이 필요 없으며, GSM8K, MATH 및 AIME 2024 벤치마크에 대한 여러 실험을 통해 더 큰 훈련 안정성과 향상된 성능을 보장합니다.