Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DCPO : optimisation de la politique de découpage dynamique

Created by
  • Haebom

Auteur

Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin

Contour

Cet article propose l'optimisation dynamique de la politique de découpage (DCPO), un nouveau cadre permettant d'améliorer la capacité d'inférence des modèles de langage à grande échelle grâce à l'apprentissage par renforcement. Pour résoudre le problème de gradient nul de la méthode GRPO existante, nous introduisons une stratégie de découpage dynamique basée sur des probabilités a priori spécifiques à chaque jeton et une technique de normalisation des avantages lisses tout au long de la phase d'apprentissage cumulatif. DCPO atteint des performances de pointe sur quatre benchmarks basés sur quatre modèles différents, surpassant les méthodes existantes GRPO, DAPO et GSPO, en particulier sur les benchmarks AIME24 et AIME25. De plus, elle améliore le rapport de gradient non nul de 28 % en moyenne par rapport à GRPO, double l'efficacité de l'apprentissage par rapport à DAPO et réduit considérablement le taux de découpage des jetons.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode permettant de résoudre efficacement le problème du gradient zéro dans l’apprentissage par renforcement de modèles linguistiques à grande échelle est présentée.
Utilisation plus efficace des données générées grâce à des stratégies de découpage dynamique et à des techniques de normalisation des avantages souples.
Atteint des performances supérieures aux méthodes existantes dans divers benchmarks.
Amélioration de l'efficacité de la formation et du taux de découpage des jetons
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation de la méthode proposée.
Des expériences supplémentaires avec différents modèles et repères sont nécessaires.
Des recherches supplémentaires sont nécessaires sur le réglage des paramètres des stratégies de découpage dynamique.
👍