Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PTQ1.61 : Repousser les limites réelles des méthodes de quantification post-apprentissage à très faible débit binaire pour les grands modèles linguistiques

Created by
  • Haebom

Auteur

Jiaqi Zhao, Miao Zhang, Ming Wang, Yuzhang Shang, Kaihao Zhang, Weili Guan, Yaowei Wang, Min Zhang

Contour

Pour résoudre le problème des modèles de langage à grande échelle (LLM) souffrant d'une forte dégradation des performances en quantification ultra-bas débit (< 2 bits), cet article propose PTQ1.61, une nouvelle méthode de quantification post-apprentissage (PTQ) ultra-bas débit qui permet une quantification pondérée à 1,61 bit. Alors que les méthodes existantes utilisent plus d'un bit supplémentaire par poids, PTQ1.61 introduit un masque structuré unidimensionnel basé sur des activations d'entrée. Ce masque utilise seulement un bit supplémentaire négligeable de 0,0002 bit, alloue 4 bits aux canaux de poids importants et effectue la binarisation des canaux non importants via un cadre d'optimisation du facteur d'échelle par bloc. De plus, nous présentons un nouveau paradigme de prétraitement de quantification qui atténue les difficultés de la PTQ spécifique aux canaux ultra-bas débit en transformant la distribution des poids d'un modèle pré-entraîné avant la quantification. Les résultats expérimentaux démontrent que PTQ1.61 atteint des performances de pointe en matière de quantification à très faible débit binaire.

Takeaways, Limitations

Takeaways:
Il présente la possibilité de réduire considérablement l'utilisation de la mémoire et la charge de calcul du LLM grâce à une quantification ultra-faible de 1,61 bits.
Nous présentons une nouvelle méthode PTQ à débit binaire ultra-faible qui surmonte les limites des méthodes de précision mixte conventionnelles.
Nous présentons une nouvelle approche pour relever les défis de la quantification à très faible nombre de bits grâce à un nouveau paradigme appelé prétraitement de quantification.
Les résultats expérimentaux vérifient les excellentes performances du PTQ1.61.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si la méthode proposée garantit les mêmes performances pour tous les types de LLM.
Il convient de prendre en compte la mise en œuvre pratique et le support matériel de la quantification 1,61 bits.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de l’étape de prétraitement de quantification proposée.
👍