Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Atteindre le poids binaire et l'activation pour les LLM à l'aide de la quantification post-formation

Created by
  • Haebom

Auteur

Siqing Song, Chuang Wang, Ruiqi Wang, Yi Yang, Xu-Yao Zhang

Contour

Dans cet article, nous proposons un nouveau cadre de quantification post-apprentissage pour quantifier les pondérations et les fonctions d'activation des modèles de langage à grande échelle (LLM) à 1 bit. Les techniques de quantification existantes souffrent d'une dégradation des performances lorsque la précision de pondération et d'activation est inférieure à 4 bits. Dans cet article, nous résolvons ce problème en utilisant la configuration W(1+1)A(1*4). Les pondérations sont quantifiées à 1 bit à l'aide de techniques de groupement fin hessiennes et de quantification EM, et le bit supplémentaire est utilisé pour effectuer un groupement fin. La fonction d'activation décompose la fonction d'activation quantifiée INT4 en un format 4*INT1 et lisse simultanément le facteur d'échelle en fonction de l'erreur de quantification afin de réduire cette dernière. Les résultats expérimentaux montrent que la méthode proposée surpasse les benchmarks de quantification LLM de pointe (SOTA) pour diverses tâches et surmonte les limites des méthodes de quantification LLM existantes pour les modèles entièrement binarisés. Le code est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode permettant de réduire considérablement le coût de calcul du LLM en utilisant une pondération de 1 bit et une quantification d'activation.
Atteint des performances supérieures aux techniques de quantification SOTA LLM existantes.
Progrès significatifs dans la recherche de quantification LLM vers des modèles entièrement binarisés.
Reproductibilité et extensibilité grâce au code ouvert.
Limitations:
D’autres études sont nécessaires pour déterminer si l’efficacité de la méthode proposée peut être généralisée à toutes les architectures et tâches LLM.
Une dégradation des performances due à la quantification 1 bit peut encore exister pour certaines tâches ou certains ensembles de données.
Il faut tenir compte de la surcharge de mémoire supplémentaire de la configuration W(1+1)A(1*4).
👍