Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MQuant: Liberando el potencial de inferencia de los modelos de lenguaje multimodales grandes mediante la cuantificación estática completa

Created by
  • Haebom

Autor

JiangYong Yu, Sifan Zhou, Dawei Yang, Shuo Wang, Shuoyu Li, Xing Hu, Chen Xu, Zukang Xu, Changyong Shu, Zhihang Yuan

Describir

Este artículo propone MQuant, un marco de cuantificación post-entrenamiento (PTQ) para la inferencia eficiente de modelos lingüísticos multimodales a gran escala (MLLM). Para abordar los desafíos de la implementación y aplicación práctica debido al gran tamaño de los parámetros y las altas demandas computacionales de los MLLM, MQuant introduce la cuantificación estática modal específica (MSQ), la conmutación flexible invariante a la atención (AIFS) y la supresión de escala de rotación (RMS) para lograr un rendimiento superior al de las líneas base de PTQ existentes. MSQ asigna escalas estáticas independientes a los tokens visuales y textuales. AIFS elimina los cálculos de escala por token, que requieren un alto coste computacional, a la vez que mantiene la atención casual mediante la reorganización del orden de los tokens. RMS mitiga los valores atípicos de peso causados por las rotaciones de Hadamard en línea. Demostramos que MQuant reduce la latencia de inferencia hasta en un 30 % en cinco MLLM líderes, incluyendo Qwen-VL, MiniCPM-V y CogVLM2, manteniendo una precisión de punto flotante casi equivalente (<1 % de degradación) en W4A8. El código fuente está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo marco PTQ, MQuant, para una inferencia MLLM eficiente.
Soluciona la alta latencia de inferencia de los PTQ existentes (__T16246_____), la falta de coincidencia de distribución entre tokens visuales y de texto, y problemas de valores atípicos debido a la transformada de Hadamard.
Consiga una precisión cercana al punto flotante y una latencia de inferencia reducida (hasta un 30 %) en una variedad de MLLM.
Aumentar la practicidad de la inferencia MLLM en entornos con recursos limitados
Garantizar la reproducibilidad y la capacidad de ampliación de la investigación mediante la divulgación del código fuente
Limitations:
La eficacia del método propuesto podría limitarse a un MLLM y una configuración de cuantificación específicos (W4A8). Se requiere más investigación para determinar el rendimiento de generalización para otros MLLM y configuraciones de cuantificación.
Los tipos de MLLM admitidos actualmente son limitados y se requiere verificar su aplicabilidad a una gama más amplia de modelos.
Este método está especializado para MLLM que dependen de la transformación de Hadamard, por lo que puede resultar difícil aplicarlo a MLLM con otras arquitecturas.
👍