Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La cuantificación se encuentra con los dLLM: un estudio sistemático de la cuantificación posterior al entrenamiento para los LLM de difusión

Created by
  • Haebom

Autor

Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

Describir

Este artículo presenta el primer estudio sistemático de cuantificación de bajo número de bits de modelos de lenguaje a gran escala basados ​​en difusión (dLLM). A diferencia de los LLM autorregresivos (AR), los dLLM utilizan estrategias de decodificación basadas en atención completa y eliminación de ruido. Sin embargo, su gran tamaño de parámetros y la alta demanda de recursos dificultan su implementación en dispositivos de borde. Este estudio revela el problema de los valores atípicos en los valores de activación de los dLLM y, mediante técnicas PTQ de vanguardia, realiza una evaluación exhaustiva en diversos aspectos, como el ancho de bits, el método de cuantificación, el tipo de tarea y el tipo de modelo. Con esto, buscamos proporcionar información práctica sobre el comportamiento de cuantificación de los dLLM y sentar las bases para una implementación eficiente de los dLLM.

Takeaways, Limitations

Takeaways:
Presentamos el primer estudio sistemático sobre la cuantificación de bits bajos de dLLM.
Identificación del problema del valor atípico de activación que ocurre durante el proceso de cuantificación de dLLM
Análisis del rendimiento de cuantificación de dLLM en varios aspectos (ancho de bits, método de cuantificación, tipo de tarea, tipo de modelo).
Proporcionar orientación práctica para una implementación eficiente de dLLM
Compartir la investigación haciendo públicos el código y las configuraciones experimentales
Limitations:
Los tipos de dLLM y técnicas de cuantificación cubiertos en este estudio pueden ser limitados.
Es posible que falte la evaluación del rendimiento en entornos de implementación de dispositivos de borde reales.
Falta de soluciones de optimización para diversas plataformas de hardware
👍