Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La quantification rencontre les dLLM : une étude systématique de la quantification post-formation pour les LLM en diffusion

Created by
  • Haebom

Auteur

Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

Contour

Cet article présente la première étude systématique de la quantification bas débit des modèles de langage à grande échelle basés sur la diffusion (dLLM). Contrairement aux LLM autorégressifs (AR), les dLLM utilisent des stratégies de décodage basées sur l'attention totale et le débruitage. Cependant, la taille importante de leurs paramètres et leurs besoins élevés en ressources entravent leur déploiement sur les périphériques. Cette étude met en évidence le problème des valeurs aberrantes d'activation dans les dLLM et, à l'aide de techniques PTQ de pointe, réalise une évaluation complète de divers aspects, notamment la largeur de bit, la méthode de quantification, le type de tâche et le type de modèle. Grâce à cela, nous souhaitons fournir des informations pratiques sur le comportement de quantification des dLLM et jeter les bases d'un déploiement efficace des dLLM.

Takeaways, Limitations

Takeaways:
Nous présentons la première étude systématique sur la quantification à faible bit de dLLM.
Identification du problème de valeur aberrante d'activation qui se produit pendant le processus de quantification dLLM
Analyse des performances de quantification dLLM sous divers aspects (largeur de bits, méthode de quantification, type de tâche, type de modèle).
Fournir des conseils pratiques pour un déploiement efficace de dLLM
Partager la recherche en rendant publics le code et les configurations expérimentales
Limitations:
Les types de techniques dLLM et de quantification couverts dans cette étude peuvent être limités.
L’évaluation des performances dans les environnements de déploiement de périphériques périphériques réels peut être insuffisante.
Manque de solutions d'optimisation pour différentes plates-formes matérielles
👍