Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PTQ1.61: Ampliar el límite real de los métodos de cuantificación post-entrenamiento de bits extremadamente bajos para modelos de lenguaje grandes

Created by
  • Haebom

Autor

Jiaqi Zhao, Miao Zhang, Ming Wang, Yuzhang Shang, Kaihao Zhang, Weili Guan, Yaowei Wang, Min Zhang

Describir

Para abordar el problema de los modelos de lenguaje a gran escala (LLM) que sufren una degradación severa del rendimiento en la cuantificación de bits ultrabajos (<2 bits), este artículo propone PTQ1.61, un novedoso método de cuantificación post-entrenamiento (PTQ) de bits ultrabajos que permite la cuantificación de peso de 1.61 bits. Mientras que los métodos existentes utilizan más de 1 bit adicional por peso, PTQ1.61 introduce una máscara estructurada unidimensional basada en activaciones de entrada que utiliza solo un bit adicional insignificante de 0.0002 bits, asignando 4 bits a canales de peso importantes y realiza la binarización en canales no importantes mediante un marco de optimización del factor de escala por bloque. Además, presentamos un novedoso paradigma de preprocesamiento de cuantificación que mitiga las dificultades de la PTQ específica del canal de bits ultrabajos al transformar la distribución de pesos de un modelo pre-entrenado antes de la cuantificación. Los resultados experimentales demuestran que PTQ1.61 logra un rendimiento de última generación en cuantificación de bits ultra bajos.

Takeaways, Limitations

Takeaways:
Presenta la posibilidad de reducir drásticamente el uso de memoria y la carga computacional de LLM a través de una cuantificación de bits ultrabaja de 1,61 bits.
Presentamos un nuevo método PTQ de tasa de bits ultrabaja que supera las limitaciones de los métodos de precisión mixta convencionales.
Presentamos un enfoque novedoso para abordar los desafíos de la cuantificación de bits ultrabajos a través de un nuevo paradigma llamado preprocesamiento de cuantificación.
Los resultados experimentales verifican el excelente desempeño de PTQ1.61.
Limitations:
Se necesitan más investigaciones para determinar si el método propuesto garantiza el mismo rendimiento para todos los tipos de LLM.
Es necesario considerar la implementación práctica y el soporte de hardware de la cuantificación de 1,61 bits.
Se necesita más investigación para determinar la generalización del paso de preprocesamiento de cuantificación propuesto.
👍