Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

NoWag : un cadre unifié pour la compression préservant la forme des grands modèles linguistiques

Created by
  • Haebom

Auteur

Lawrence Liu, Inesh Chakrabarti, Yixiao Li, Mengdi Wang, Tuo Zhao, Lin F. Yang

Contour

Pour relever les défis du déploiement de modèles de langage à grande échelle (LLM) dans des environnements aux ressources limitées, cet article propose NoWag (Normalized Weight and Activation Guided Compression), un cadre unifié pour les algorithmes de compression zéro-shot préservant la forme. NoWag compresse les modèles Llama-2 7B/13B/70B et Llama-3 8B/70B en utilisant deux formes de compression préservant la forme : la quantification vectorielle (NoWag-VQ) et l'élagage non structuré/semi-structuré (NoWag-P). Les résultats expérimentaux montrent que NoWag-VQ surpasse significativement les méthodes de quantification vectorielle zéro-shot de pointe, et que NoWag-P est compétitif avec elles. Ces résultats suggèrent des points communs entre les deux paradigmes de compression pour les recherches futures. Le code source est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Nous proposons NoWag, un cadre unifié efficace pour les algorithmes de compression préservant la forme à zéro coup.
NoWag-VQ surpasse les méthodes de quantification vectorielle à zéro coup de pointe existantes.
NoWag-P démontre des performances compétitives avec les méthodes d'élagage de pointe existantes.
Proposer des orientations de recherche futures en présentant les points communs entre différents paradigmes de compression, tels que la quantification vectorielle et l'élagage.
Limitations:
Les résultats expérimentaux présentés dans cet article concernent des modèles LLM spécifiques (Llama-2, Llama-3), et des recherches supplémentaires sont nécessaires pour déterminer leur généralisabilité à d'autres modèles.
Manque d’analyse approfondie des facteurs contribuant à l’amélioration des performances de NoWag.
Une évaluation plus approfondie de l’applicabilité et des performances de NoWag dans divers environnements aux ressources limitées est nécessaire.
👍