[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Quantification des circuits de tâches : Exploiter la localisation et l'interprétabilité des connaissances pour la compression

Created by
  • Haebom

Auteur

Hanqi Xiao, Yi-Lin Sung, Elias Stengel-Eskin, Mohit Bansal

Contour

Dans cet article, nous proposons une nouvelle technique de quantification post-apprentissage à précision mixte, la quantification par circuit de tâches (TaCQ), pour résoudre le problème de dégradation des performances en quantification low-bit (2-3 bits). TaCQ conditionne directement le processus de quantification sur le circuit de pondération, un ensemble de pondérations liées à la performance d'une tâche spécifique. Les pondérations importantes pour la performance d'une tâche spécifique sont conservées sur 16 bits, tandis que les pondérations restantes sont quantifiées, réduisant ainsi efficacement l'utilisation de la mémoire tout en minimisant la dégradation des performances. Nous utilisons les informations de gradient pour prédire les variations de pondération dues à la quantification et leur impact sur les performances des tâches. Nous démontrons expérimentalement qu'elle surpasse les méthodes existantes sur diverses tâches (AQ, raisonnement mathématique, texte-à-SQL) et modèles (Llama-3, Qwen2.5), en utilisant des données génériques et spécifiques à une tâche. En particulier, elle permet d'obtenir des améliorations significatives des performances par rapport aux méthodes de pointe existantes dans les environnements de quantification 2 et 3 bits.

Takeaways, Limitations

Takeaways:
Une nouvelle technique de quantification à précision mixte TaCQ est présentée pour résoudre efficacement le problème de dégradation des performances dans la quantification à faible bit.
Minimisez l’impact sur les performances des tâches en préservant les pondérations spécifiques à chaque tâche.
Démontre des performances supérieures aux méthodes existantes sur des modèles de langage à grande échelle tels que Llama-3 et Qwen2.5 (en particulier dans la quantification 2-3 bits)
Il montre une amélioration des performances même sans utiliser de données spécifiques à la tâche et est efficace même dans des situations générales.
Hautes performances même avec un faible nombre de bits (3,1 bits) (96 % de performances pour Llama-3-8B-Instruct)
Limitations:
L'efficacité du TaCQ peut varier selon les tâches et les modèles. Des expériences supplémentaires avec différents modèles et tâches sont nécessaires.
Des recherches supplémentaires sont nécessaires sur la manière de définir les circuits pondérés et les critères de sélection des poids importants.
L'effet de la réduction de l'utilisation de la mémoire dépend du ratio de pondération d'importance maintenu à 16 bits. Des recherches supplémentaires sont nécessaires pour déterminer le ratio optimal.
👍