Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GANQ : Quantification non uniforme adaptative au GPU pour les grands modèles de langage

Created by
  • Haebom

Auteur

Pengxiang Zhao, Xiaoming Yuan

Contour

Pour répondre aux besoins élevés en ressources rencontrés lors du déploiement de grands modèles de langage (LLM), cet article propose une quantification non uniforme adaptative au GPU (GANQ), un cadre de quantification non uniforme post-apprentissage par couche optimisé par GPU. GANQ réduit efficacement les erreurs de quantification par couche grâce à un algorithme d'optimisation adaptative au GPU sans apprentissage et vise à fournir une implémentation matériellement efficace pour la multiplication matricielle généralisée à précision mixte basée sur une table de correspondance (mpGEMM). Les résultats expérimentaux démontrent que GANQ réduit l'écart de perplexité en termes de FP16 pour la quantification 3 bits et 4 bits par rapport aux méthodes de pointe existantes, et améliore l'efficacité mémoire et d'inférence des déploiements LLM jusqu'à 2,57 fois plus rapide sur un seul GPU NVIDIA RTX 4090.

Takeaways, Limitations_

Takeaways:
Nous proposons qu'une technique de quantification non uniforme optimisée par GPU peut améliorer efficacement l'utilisation de la mémoire et la vitesse d'inférence de LLM.
Nous avons amélioré l’efficacité du processus de quantification grâce à un algorithme d’optimisation adaptatif au GPU qui ne nécessite aucune formation.
Nous fournissons une implémentation conviviale pour le matériel en exploitant mpGEMM basé sur une table de recherche.
Nous avons vérifié expérimentalement les améliorations de performances par rapport aux techniques de pointe existantes.
Limitations:
Les gains de performances de GANQ ont été évalués dans un environnement GPU spécifique (NVIDIA RTX 4090), des recherches supplémentaires sont donc nécessaires sur la généralisabilité à d'autres plates-formes matérielles.
Dans cet article, nous avons mené des expériences uniquement pour des nombres de bits de quantification spécifiques (3 bits, 4 bits), une évaluation des performances pour d'autres nombres de bits est donc nécessaire.
Puisqu’il s’agit d’une méthode de quantification post-formation, elle peut ne pas prendre en compte l’effet de quantification pendant le processus de formation.
👍