Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

NoWag: Un marco unificado para la compresión con preservación de la forma de modelos de lenguaje grandes

Created by
  • Haebom

Autor

Lawrence Liu, Inesh Chakrabarti, Yixiao Li, Mengdi Wang, Tuo Zhao, Lin F. Yang

Describir

En este artículo, proponemos la Compresión Guiada por Peso Normalizado y Activación (NoWag), un marco unificado para algoritmos de compresión de cero disparos con preservación de forma, que aborda los altos requisitos computacionales y de memoria que limitan la implementación de modelos de lenguaje a gran escala (LLM) en entornos con recursos limitados. NoWag comprime los modelos Llama-2 7B/13B/70B y Llama-3 8B/70B mediante dos métodos de compresión con preservación de forma: cuantificación vectorial (NoWag-VQ) y poda no estructurada/semiestructurada (NoWag-P). Los resultados experimentales muestran que NoWag-VQ supera significativamente a los métodos de cuantificación vectorial de cero disparos más avanzados, y que NoWag-P es competitivo con estos métodos. Esto sugiere puntos en común entre diferentes paradigmas de compresión y sirve de inspiración para futuras investigaciones. El código fuente está disponible en GitHub.

Takeaways, Limitations

Takeaways:
NoWag proporciona un nuevo marco unificado para la compresión eficiente de LLM en entornos de cero disparos.
NoWag-VQ supera los métodos de cuantificación vectorial de disparo cero de última generación existentes.
NoWag-P tiene un rendimiento competitivo con los métodos de poda de última generación existentes.
Revelamos puntos en común entre diferentes paradigmas de compresión, concretamente la cuantificación vectorial y la poda, y sugerimos futuras direcciones de investigación.
Limitations:
Los resultados experimentales presentados en este artículo se limitan a modelos LLM específicos (Llama-2, Llama-3) y se necesitan más estudios para determinar su generalización.
Falta un análisis e interpretación detallados de las mejoras de rendimiento de NoWag.
Falta de evaluación del rendimiento en varias plataformas de hardware.
👍