Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LoRA-XS: Adaptación de bajo rango con un número extremadamente pequeño de parámetros

Created by
  • Haebom

Autor

Klaudia Ba{\l}azy, Mohammadreza Banaei, Karl Aberer, Jacek Tabor

Describir

Este artículo presenta LoRA-XS, un novedoso método de ajuste fino con eficiencia de parámetros para abordar las limitaciones de LoRA, que presentan dificultades de almacenamiento y computación al implementar módulos para diversas tareas o usuarios. LoRA-XS reduce drásticamente el número de parámetros entrenables al incorporar pequeñas matrices de pesos entrenables entre matrices fijas de bajo rango obtenidas mediante la descomposición en valores singulares (SVD) de pesos preentrenados. En comparación con LoRA en un modelo 7B, reduce los requisitos de almacenamiento en más de 100 veces y escala desde un parámetro por módulo a cualquier tamaño arbitrario. Las evaluaciones en GLUE, GSM8K, MATH y benchmarks de inferencia de sentido común demuestran que LoRA-XS tiene un rendimiento igual o superior en precisión que LoRA y VeRA, a la vez que ofrece una eficiencia de parámetros superior. Experimentos adicionales que destacan la importancia de los vectores singulares demuestran la utilidad de LoRA-XS como una solución robusta y con eficiencia de almacenamiento para escalar y personalizar modelos lingüísticos a gran escala.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método de ajuste fino, LoRA-XS, que aborda eficazmente los problemas de almacenamiento y costos computacionales de LoRA.
El modelo 7B ahorra más de 100 veces el espacio de almacenamiento en comparación con LoRA.
Número flexible de parámetros entrenables (desde un parámetro por módulo hasta tamaño arbitrario).
Logra una precisión equivalente o superior en comparación con LoRA y VeRA en los puntos de referencia GLUE, GSM8K, MATH y razonamiento de sentido común.
Demostración experimental de la importancia de los vectores singulares en los pesos de los transformadores.
Proporcionar una solución eficiente para escalar y personalizar modelos de lenguaje a gran escala.
Limitations:
Se necesitan más investigaciones para determinar la generalización de los resultados experimentales presentados en este artículo.
Se necesita una experimentación más amplia con diferentes tamaños de modelos y tareas.
Es necesario revisar la posibilidad de que las mejoras de rendimiento de LoRA-XS puedan estar sesgadas hacia conjuntos de datos o tareas específicas.
👍