Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ajuste fino de orden cero de LLM en subespacios aleatorios

Created by
  • Haebom

Autor

Ziming Yu, Pan Zhou, Sike Wang, Jia Li, Mi Tian, Hua Huang

Describir

En este artículo, proponemos SubZero, un método de optimización con uso eficiente de memoria para el ajuste fino de modelos lingüísticos a gran escala (LLM). Los métodos de optimización de orden cero existentes presentan el problema de que la varianza de la estimación del gradiente aumenta linealmente con la dimensión del modelo, y SubZero resuelve este problema mediante perturbaciones de baja dimensión. SubZero mejora el rendimiento del entrenamiento, reduce el consumo de memoria y converge más rápido que los métodos de optimización de orden cero existentes. Mediante resultados experimentales, verificamos la superioridad de SubZero en diversas tareas de modelado lingüístico y divulgamos el código fuente.

Takeaways, Limitations

Takeaways:
Una nueva técnica de optimización que hace uso eficiente de la memoria para ajustar modelos lingüísticos a gran escala
Solución del problema de varianza de estimación de alto gradiente de los métodos de optimización de orden cero existentes, que es Limitations
Lograr un mejor rendimiento del entrenamiento y una mayor velocidad de convergencia
Validación de la eficacia en tareas de modelado de lenguaje real y divulgación del código fuente
Limitations:
Se necesitan más investigaciones para determinar la generalización del método propuesto a estructuras o tamaños distintos de la estructura y tamaño generales del LLM.
Se necesita más investigación sobre el ajuste y optimización de varios hiperparámetros.
Se necesitan experimentos más amplios, ya que los resultados experimentales pueden estar limitados a conjuntos de datos y tareas específicos.
👍