Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DCPO: Optimización de la política de recorte dinámico

Created by
  • Haebom

Autor

Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin

Describir

Este artículo propone la Optimización de Políticas de Recorte Dinámico (DCPO), un novedoso marco para mejorar la capacidad de inferencia de modelos lingüísticos a gran escala mediante aprendizaje por refuerzo. Para abordar el problema del gradiente cero del método GRPO existente, introducimos una estrategia de recorte dinámico basada en probabilidades previas específicas de cada token y una técnica de normalización de ventaja suave a lo largo de la fase de entrenamiento acumulativo. DCPO alcanza un rendimiento de vanguardia en cuatro pruebas basadas en cuatro modelos diferentes, superando a los métodos GRPO, DAPO y GSPO, en particular en las pruebas AIME24 y AIME25. Además, mejora la relación de gradiente no nula en un promedio del 28 % en comparación con GRPO, duplica la eficiencia de entrenamiento en comparación con DAPO y reduce significativamente la tasa de recorte de tokens.

Takeaways, Limitations

Takeaways:
Se presenta un método novedoso para resolver eficazmente el problema del gradiente cero en el aprendizaje de refuerzo de modelos lingüísticos a gran escala.
Uso más eficiente de los datos generados a través de estrategias de recorte dinámico y técnicas de normalización de ventajas suaves.
Logra un rendimiento superior a los métodos existentes en varios puntos de referencia.
Eficiencia de entrenamiento mejorada y tasa de recorte de tokens
Limitations:
Se necesitan más investigaciones para determinar el rendimiento de generalización del método propuesto.
Se necesitan experimentos adicionales con diversos modelos y puntos de referencia.
Se necesita más investigación sobre el ajuste de parámetros de las estrategias de recorte dinámico.
👍