Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ButterflyQuant: cuantificación LLM de bits ultrabajos mediante transformadas ortogonales de mariposa aprendibles

Created by
  • Haebom

Autor

Bingxin Xu, Zhen Dong, Oussama Elachqar, Yuzhang Shang

Describir

Este artículo propone ButterflyQuant, una novedosa técnica de cuantificación que aborda la degradación del rendimiento causada por valores atípicos de activación en la cuantificación de 2 bits. Mientras que los métodos existentes basados ​​en rotación (QuIP, QuaRot) utilizan una transformada de Hadamard fija, este artículo descubre que cada capa de un transformador exhibe patrones de valores atípicos distintos. Por lo tanto, proponemos ButterflyQuant, una transformada de mariposa aprendible que rota las capas de forma adaptativa. La transformada de mariposa es diferenciable utilizando ángulos de rotación de Givens continuos como parámetros, garantiza la ortogonalidad y tiene una complejidad computacional de $O(n \log n)$ con solo $\frac{n \log n}{2}$ parámetros aprendibles. Además, introducimos una regularización uniforme de las activaciones después de la transformación para asegurar una distribución suave adecuada para la cuantificación. Los resultados experimentales utilizando la cuantificación de 2 bits en el modelo LLaMA-2-7B muestran que ButterflyQuant supera significativamente a QuaRot.

Takeaways, Limitations

Takeaways:
La rotación adaptativa a través de capas permite una cuantificación de 2 bits más eficiente que los métodos convencionales basados ​​en transformadas fijas.
Presentamos un método de cuantificación eficiente que garantiza la diferenciabilidad y la ortogonalidad utilizando la transformada Butterfly aprendible.
Un pequeño número de muestras de calibración y un tiempo de convergencia rápido aumentan la aplicabilidad práctica.
Los resultados experimentales de LLaMA-2-7B demuestran un rendimiento superior al de los métodos existentes.
Limitations:
Las mejoras de rendimiento de ButterflyQuant pueden estar limitadas a un modelo específico (LLaMA-2-7B) y a una cuantificación de 2 bits.
La verificación del rendimiento de generalización es necesaria para otros tipos de modelos de lenguaje a gran escala o recuentos de bits de cuantificación.
Tal vez sea necesario un análisis más profundo de los efectos de la normalización de la uniformidad.
Se necesitan más investigaciones sobre el rendimiento de generalización para la cuantificación de bits extremadamente bajos.
👍