Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

NoWag : un cadre unifié pour la compression préservant la forme des grands modèles linguistiques

Created by
  • Haebom

Auteur

Lawrence Liu, Inesh Chakrabarti, Yixiao Li, Mengdi Wang, Tuo Zhao, Lin F. Yang

Contour

Dans cet article, nous proposons la compression guidée par poids normalisé et activation (NoWag), un cadre unifié pour les algorithmes de compression zéro-shot préservant la forme. Cette approche répond aux exigences élevées en termes de calcul et de mémoire qui limitent le déploiement de modèles de langage à grande échelle (LLM) dans des environnements aux ressources limitées. NoWag compresse les modèles Llama-2 7B/13B/70B et Llama-3 8B/70B à l'aide de deux méthodes de compression préservant la forme : la quantification vectorielle (NoWag-VQ) et l'élagage non structuré/semi-structuré (NoWag-P). Les résultats expérimentaux montrent que NoWag-VQ surpasse significativement les méthodes de quantification vectorielle zéro-shot les plus récentes, et que NoWag-P est compétitif par rapport à ces méthodes. Cela suggère des points communs entre les différents paradigmes de compression et inspire de futures recherches. Le code source est disponible sur GitHub.

Takeaways, Limitations_

Takeaways:
NoWag fournit un nouveau cadre unifié pour une compression efficace de LLM dans des paramètres zéro-shot.
NoWag-VQ surpasse les méthodes de quantification vectorielle à zéro coup de pointe existantes.
NoWag-P est compétitif par rapport aux méthodes d’élagage de pointe existantes.
Nous révélons les points communs entre différents paradigmes de compression, à savoir la quantification vectorielle et l'élagage, et suggérons des orientations de recherche futures.
Limitations:
Les résultats expérimentaux présentés dans cet article sont limités à des modèles LLM spécifiques (Llama-2, Llama-3) et d'autres études sont nécessaires pour déterminer leur généralisabilité.
Il y a un manque d’analyse et d’interprétation détaillées des améliorations de performance de NoWag.
Manque d'évaluation des performances sur diverses plates-formes matérielles.
👍