Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

BASE-Q: cuantificación rotacional mejorada con sesgo y escalamiento asimétrico para modelos de lenguaje grandes

Created by
  • Haebom

Autor

Liulu He, Shenli Zheng, Karwei Sun, Yijiang Liu, Yufei Zhao, Chongkang Tan, Huanrui Yang, Yuan Du, Li Du

Describir

Este artículo presenta BASE-Q, un método propuesto para mejorar la eficacia de las técnicas de rotación en el proceso de cuantificación de modelos de lenguaje a gran escala (LLM). Los métodos de cuantificación basados ​​en rotación existentes presentan desalineación de la media del canal y un aumento de errores de redondeo y recorte debido a las distribuciones de activación gaussiana. BASE-Q reduce eficazmente estos errores combinando la corrección de sesgo y el escalamiento asimétrico. Además, elimina la retropropagación del modelo completo, que consume mucha memoria, mediante la optimización por bloques. Los resultados experimentales en varios LLM y pruebas de referencia demuestran que BASE-Q reduce las pérdidas de precisión en un 50,5 %, un 42,9 % y un 29,2 %, respectivamente, en comparación con los métodos existentes (QuaRot, SpinQuant y OSTQuant).

Takeaways, Limitations

Takeaways:
Presentamos claramente el Limitations (falla en la alineación de los promedios del canal, aumento del error debido a la distribución gaussiana) del método de cuantificación basado en rotación existente y propusimos un método efectivo (BASE-Q) para resolver estos problemas.
BASE-Q mejora significativamente la eficiencia de la memoria a través de la optimización a nivel de bloque.
Muestra una excelente mejora del rendimiento con respecto a los métodos existentes en varios LLM y puntos de referencia.
Limitations:
El código aún no ha sido publicado.
Se presentan resultados experimentales sobre varios LLM y puntos de referencia, pero puede haber una falta de análisis sobre casos en los que el rendimiento es excesivamente bueno o malo para un LLM o punto de referencia específico.
Puede que falte una descripción detallada de la estrategia de optimización a nivel de bloque de BASE-Q.
👍