Cet article propose l'optimisation dynamique de la politique de découpage (DCPO), un nouveau cadre permettant d'améliorer la capacité d'inférence des modèles de langage à grande échelle grâce à l'apprentissage par renforcement. Pour résoudre le problème de gradient nul de la méthode GRPO existante, nous introduisons une stratégie de découpage dynamique basée sur des probabilités a priori spécifiques à chaque jeton et une technique de normalisation des avantages lisses tout au long de la phase d'apprentissage cumulatif. DCPO atteint des performances de pointe sur quatre benchmarks basés sur quatre modèles différents, surpassant les méthodes existantes GRPO, DAPO et GSPO, en particulier sur les benchmarks AIME24 et AIME25. De plus, elle améliore le rapport de gradient non nul de 28 % en moyenne par rapport à GRPO, double l'efficacité de l'apprentissage par rapport à DAPO et réduit considérablement le taux de découpage des jetons.