Bài báo này xác định và phân tích hai vấn đề chính trong tối ưu hóa chính sách tương đối nhóm (GRPO) truyền thống: (i) các mã thông báo thường xuất hiện trong các lần hoàn thành với cả phần thưởng dương và âm, dẫn đến các bản cập nhật gradient xung đột và giảm xác suất đầu ra, và (ii) các lần hoàn thành được thưởng tiêu cực sẽ phạt các phản hồi tự tin và chuyển các quyết định của mô hình sang các mã thông báo không có khả năng xảy ra, làm phẳng phân phối đầu ra và làm suy yếu việc học. Để giải quyết những vấn đề này, bài báo này đề xuất tối ưu hóa chính sách dựa trên quỹ đạo tương đối nhóm (GTPO). GTPO xác định các mã thông báo xung đột xuất hiện cùng lúc trong các lần hoàn thành với phần thưởng xung đột và bảo vệ chúng bằng cách khuếch đại các bản cập nhật dương đồng thời bỏ qua các bản cập nhật âm. Hơn nữa, để ngăn chặn sự sụp đổ chính sách, GTPO lọc các lần hoàn thành có entropy vượt quá ngưỡng cao có thể chứng minh được. Không giống như GRPO, GTPO không dựa vào chính quy hóa phân kỳ KL, do đó không yêu cầu mô hình tham chiếu trong quá trình đào tạo. Nhiều thí nghiệm trên các điểm chuẩn GSM8K, MATH và AIME 2024 chứng minh rằng GTPO mang lại độ ổn định đào tạo cao hơn và hiệu suất được cải thiện.