Este artículo propone la Optimización de Políticas de Recorte Dinámico (DCPO), un novedoso marco para mejorar la capacidad de inferencia de modelos lingüísticos a gran escala mediante aprendizaje por refuerzo. Para abordar el problema del gradiente cero del método GRPO existente, introducimos una estrategia de recorte dinámico basada en probabilidades previas específicas de cada token y una técnica de normalización de ventaja suave a lo largo de la fase de entrenamiento acumulativo. DCPO alcanza un rendimiento de vanguardia en cuatro pruebas basadas en cuatro modelos diferentes, superando a los métodos GRPO, DAPO y GSPO, en particular en las pruebas AIME24 y AIME25. Además, mejora la relación de gradiente no nula en un promedio del 28 % en comparación con GRPO, duplica la eficiencia de entrenamiento en comparación con DAPO y reduce significativamente la tasa de recorte de tokens.