Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

A3 : un cadre d'approximation analytique de bas rang pour l'attention

Created by
  • Haebom

Auteur

Jeffrey TH Wong, Cheng Zhang, Xinye Cao, Pedro Gimenes, George A. Constantinides, Wayne Luk, Yiren Zhao

Contour

Dans cet article, nous proposons A³, un framework d'approximation de bas rang efficace en post-traitement pour réduire le coût de déploiement des modèles de langage à grande échelle. Pour surmonter les limites des méthodes d'approximation de bas rang existantes, qui minimisent uniquement l'erreur de sortie des couches linéaires individuelles sans tenir compte des caractéristiques structurelles du transformateur, et entraînent une surcharge de calcul supplémentaire en décomposant une grande matrice de pondération en deux petites matrices de bas rang, A³ décompose la couche Transformateur en trois composants fonctionnels : QK, OV et MLP. Il fournit une solution analytique pour réduire la taille de la dimension cachée tout en minimisant la perte fonctionnelle de chaque composant (score d'attention, sortie d'attention et erreur de sortie MLP). Cela réduit directement la taille du modèle, la taille du cache KV et les FLOP sans surcharge d'exécution, et offre une nouvelle perspective pour faire évoluer le problème d'optimisation, de l'optimisation des pertes sur une seule couche linéaire à l'amélioration des performances de bout en bout. Les résultats expérimentaux montrent qu'A³ surpasse les performances de l'état de l'art actuel (SoTA), améliorant par exemple la perplexité WikiText-2 de LLaMA 3.1-70B de 7,87 à 4,69, soit 3,18, avec le même taux de calcul et de réduction de mémoire. Il présente également diverses applications potentielles, telles que la compression du cache KV, la quantification et l'allocation de rangs mixtes.

Takeaways, Limitations

Takeaways:
Nous surmontons les limitations des méthodes existantes en proposant une méthode d'approximation de bas rang spécialisée pour les structures de transformateurs.
Réduisez la taille du modèle, la taille du cache KV et les FLOP sans surcharge d'exécution.
Nous présentons une nouvelle approche d’optimisation axée sur l’amélioration des performances de bout en bout.
A obtenu des performances supérieures par rapport au SoTA existant (perplexité LLaMA 3.1-70B améliorée).
Large gamme d'utilisations potentielles, notamment la compression du cache KV, la quantification et l'allocation de rangs mixtes.
Limitations:
Il manque une analyse spécifique de la complexité computationnelle de l’algorithme A³ présenté dans cet article.
Une évaluation supplémentaire des performances de généralisation pour les modèles de transformateurs de différentes tailles et structures est nécessaire.
Des recherches sont nécessaires pour le combiner avec d’autres techniques de compression (par exemple, l’élagage, la quantification).
👍