Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DLLMQuant: Cuantización de modelos de lenguaje grandes basados ​​en difusión

Created by
  • Haebom

Autor

Chen Xu y Dawei Yang

Describir

Este artículo presenta una técnica de cuantificación para construir eficientemente modelos lingüísticos a gran escala (DLLM) basados ​​en difusión. Las técnicas existentes de cuantificación post-entrenamiento (PTQ), al aplicarse a DLLM, sufren una degradación de la precisión y la generalización debido a conflictos con mecanismos centrales de DLLM, como el enmascaramiento dinámico, la generación iterativa y la atención bidireccional. Por lo tanto, en este artículo, proponemos el marco DLLMQuant, que incluye tres técnicas novedosas: TMAS, una técnica de compensación que considera factores temporales y de máscara; IA-AQ, que asigna dinámicamente recursos de cuantificación aprovechando la señal de interacción de la atención bidireccional; y CGQ, que utiliza estados de máscara y puntuaciones de token para la corrección de errores. Los resultados experimentales demuestran que DLLMQuant logra mejoras significativas en el rendimiento y la eficiencia.

Takeaways, Limitations

Takeaways:
Presentamos DLLMQuant, un nuevo marco PTQ para la construcción eficiente de DLLM.
Solución de los problemas de precisión reducida y rendimiento de generalización que ocurren al aplicar DLLM a PTQ existentes.
La cuantificación efectiva considerando las características de DLLM se logra mediante tres técnicas innovadoras: TMAS, IA-AQ y CGQ.
Los resultados experimentales confirman la mejora del rendimiento y el aumento de la eficiencia de DLLMQuant.
Limitations:
Es necesaria una verificación adicional del rendimiento de generalización del método propuesto.
Se requiere análisis de aplicabilidad y rendimiento para varias arquitecturas y tamaños de DLLM.
Se necesita un análisis comparativo más detallado con otras técnicas de cuantificación.
Se requiere evaluación del rendimiento y verificación de la estabilidad en entornos de aplicación reales.
👍