본 논문은 강화 학습을 통해 대규모 언어 모델의 추론 능력을 향상시키는 새로운 프레임워크인 동적 클리핑 정책 최적화(DCPO)를 제안합니다. 기존 방법인 GRPO의 제로 기울기 문제를 해결하기 위해, 토큰별 사전 확률에 기반한 동적 클리핑 전략과 누적 훈련 단계에 걸친 부드러운 이점 표준화 기법을 도입했습니다. DCPO는 네 가지 모델을 기반으로 한 네 가지 벤치마크에서 최첨단 성능을 달성했으며, 특히 AIME24 및 AIME25 벤치마크에서 기존 방법인 GRPO, DAPO, GSPO를 능가하는 결과를 보였습니다. 또한, GRPO에 비해 비영 기울기 비율을 평균 28% 향상시켰고, DAPO보다 훈련 효율을 두 배 높였으며, 토큰 클리핑 비율을 획기적으로 감소시켰습니다.