Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

GTPO: Optimización de políticas basada en trayectorias en modelos de lenguaje grandes

Created by
  • Haebom

Autor

Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

Describir

Este artículo analiza dos problemas clave de la Optimización de Políticas Relativa a Grupos (GRPO) tradicional: (i) las actualizaciones de gradiente conflictivas que ocurren cuando los tokens reciben recompensas tanto positivas como negativas, y (ii) el problema de que las versiones finales con recompensas negativas penalizan las respuestas confiables y desplazan las decisiones del modelo hacia tokens menos probables, aplanando la distribución de salida e impidiendo el aprendizaje. Para abordar estos problemas, este artículo propone la Optimización de Políticas Relativa a Grupos basada en Trayectorias (GTPO), que identifica tokens conflictivos y amplifica las actualizaciones positivas, mientras que omite las negativas. Además, previene el colapso de la política filtrando las versiones finales cuya entropía excede un cierto umbral. A diferencia de GRPO, GTPO no depende de la regularización de divergencia KL, eliminando la necesidad de un modelo de referencia durante el entrenamiento. Demostramos un rendimiento y una estabilidad mejorados mediante múltiples experimentos en los benchmarks GSM8K, MATH y AIME 2024.

Takeaways, Limitations

Takeaways:
Aclaramos el Limitations de GRPO y proponemos GTPO, un nuevo método de optimización de políticas que lo mejora.
GTPO logra un aprendizaje estable y una mejora del rendimiento sin regularización de divergencia KL.
Verificación experimental de la superioridad de GTPO en los puntos de referencia GSM8K, MATH y AIME 2024.
Mayor eficiencia al permitir el aprendizaje sin un modelo de referencia.
Limitations:
Se necesita un mayor análisis y optimización del ajuste del umbral de entropía de GTPO.
Se necesitan más experimentos con diferentes tipos de modelos lingüísticos y puntos de referencia.
Se necesita una explicación más detallada de la base teórica del umbral de entropía propuesto.
👍