Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimizadores fantásticos de preentrenamiento y dónde encontrarlos

Created by
  • Haebom

Autor

Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang

Describir

Este artículo presenta los resultados de un estudio sistemático de las afirmaciones de aceleración de algoritmos de optimización que pueden reemplazar a AdamW para el preentrenamiento de modelos lingüísticos a gran escala. Destacamos los problemas que estudios previos han sesgado en sus comparaciones debido a un ajuste injusto de hiperparámetros y configuraciones de evaluación limitadas, y comparamos diez algoritmos de optimización con cuatro tamaños de modelo y ratios datos-modelo diferentes. Nuestros resultados demuestran que un ajuste riguroso de hiperparámetros y evaluaciones al final del entrenamiento para diversos tamaños de modelo y ratios datos-modelo son esenciales para realizar comparaciones justas. Además, observamos que las afirmaciones de aceleración en estudios previos son, en realidad, menores y tienden a disminuir al aumentar el tamaño del modelo. Específicamente, observamos que los algoritmos de optimización más rápidos, como Muon y Soap, utilizan preprocesadores matriciales, pero su aceleración disminuye inversamente con el tamaño del modelo.

Takeaways, Limitations

Takeaways:
Se plantean preguntas sobre la confiabilidad de los resultados de investigaciones existentes sobre la aceleración de los algoritmos de optimización en el preentrenamiento de modelos lingüísticos a gran escala.
Presentamos un ajuste riguroso de hiperparámetros y métodos de evaluación integrales para una comparación justa de algoritmos de optimización.
Descubrimos que la aceleración de los algoritmos de optimización que utilizan preprocesadores basados ​​en matrices disminuye con el tamaño del modelo.
Demostramos experimentalmente que la aceleración en AdamW se vuelve mínima a medida que aumenta el tamaño del modelo.
Limitations:
Los algoritmos de optimización, el tamaño del modelo y la relación datos-modelo considerados en este estudio pueden ser limitados.
Se necesita más investigación sobre la generalización a otros tipos de modelos o tareas del lenguaje.
Es posible que se requieran comparaciones más sofisticadas explorando un espacio de hiperparámetros más amplio.
👍