Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PCDVQ : amélioration de la quantification vectorielle pour les grands modèles linguistiques via le découplage des coordonnées polaires

Created by
  • Haebom

Auteur

Yuxuan Yue, Zukang Xu, Zhihang Yuan, Dawei Yang, Jianlong Wu, Liqiang Nie

Contour

Dans cet article, nous proposons une technique améliorée de quantification vectorielle (VQ) pour les modèles de langage légers à grande échelle (LLM). Alors que la VQ conventionnelle quantifie à la fois la direction et la magnitude d'un vecteur, nous constatons que la direction est beaucoup plus sensible à la quantification que la magnitude. Par conséquent, nous proposons une technique de quantification vectorielle séparable en coordonnées polaires (PCDVQ) qui transforme les vecteurs en coordonnées polaires et quantifie la direction et la magnitude indépendamment. PCDVQ inclut également un module de construction de livre de codes aligné sur la distribution (DACC) qui optimise le livre de codes en fonction de la distribution de la direction et de la magnitude. Les résultats expérimentaux montrent que PCDVQ améliore la précision du zéro-shot d'au moins 1,5 % par rapport aux méthodes conventionnelles en quantification 2 bits.

Takeaways, Limitations

Takeaways:
Nous présentons une technique efficace de quantification vectorielle 2 bits pour LLM léger.
Nous révélons des différences de sensibilité de quantification à la direction et à l'amplitude du vecteur, et proposons un nouveau cadre de quantification qui en tient compte.
Nous avons réussi à surmonter les limites des VQ existants et à améliorer la précision du tir zéro.
Limitations:
L'efficacité de la méthode proposée pourrait être limitée à un LLM spécifique (LLaMA-2-7B) et à une tâche à zéro coup. Sa généralisabilité à d'autres LLM ou tâches devra être vérifiée plus avant.
Le processus d'optimisation du module DACC manque de description détaillée. Une analyse de la complexité et du coût de calcul du processus d'optimisation est nécessaire.
Il existe un manque d'analyse comparative des performances à différents niveaux de bits (plus de 2 bits). Les résultats limités à 2 bits peuvent avoir une généralisabilité limitée.
👍