Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

NoWag: Un marco unificado para la compresión con preservación de la forma de modelos de lenguaje grandes

Created by
  • Haebom

Autor

Lawrence Liu, Inesh Chakrabarti, Yixiao Li, Mengdi Wang, Tuo Zhao, Lin F. Yang

Describir

Para abordar los desafíos de implementar modelos de lenguaje a gran escala (LLM) en entornos con recursos limitados, este artículo propone NoWag (Normalized Weight and Activation Guided Compression), un marco unificado para algoritmos de compresión con preservación de forma de disparo cero. NoWag comprime los modelos Llama-2 7B/13B/70B y Llama-3 8B/70B mediante dos métodos de compresión con preservación de forma: cuantificación vectorial (NoWag-VQ) y poda no estructurada/semiestructurada (NoWag-P). Los resultados experimentales muestran que NoWag-VQ supera significativamente a los métodos de cuantificación vectorial de disparo cero más avanzados, y NoWag-P los supera. Estos resultados sugieren puntos en común entre ambos paradigmas de compresión para futuras investigaciones. El código fuente está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Proponemos NoWag, un marco unificado eficaz para algoritmos de compresión con preservación de forma de disparo cero.
NoWag-VQ supera los métodos de cuantificación vectorial de disparo cero de última generación existentes.
NoWag-P demuestra un rendimiento competitivo con los métodos de poda de última generación existentes.
Sugerir futuras direcciones de investigación presentando puntos en común entre diferentes paradigmas de compresión, como la cuantificación vectorial y la poda.
Limitations:
Los resultados experimentales presentados en este artículo son para modelos LLM específicos (Llama-2, Llama-3) y se necesita más investigación para determinar su generalización a otros modelos.
Falta de un análisis en profundidad de los factores que contribuyen a la mejora del rendimiento de NoWag.
Es necesario evaluar más a fondo la aplicabilidad y el rendimiento de NoWag en diversos entornos con recursos limitados.
👍