Dans cet article, nous proposons A³, un framework d'approximation de bas rang efficace en post-traitement pour réduire le coût de déploiement des modèles de langage à grande échelle. Pour surmonter les limites des méthodes d'approximation de bas rang existantes, qui minimisent uniquement l'erreur de sortie des couches linéaires individuelles sans tenir compte des caractéristiques structurelles du transformateur, et entraînent une surcharge de calcul supplémentaire en décomposant une grande matrice de pondération en deux petites matrices de bas rang, A³ décompose la couche Transformateur en trois composants fonctionnels : QK, OV et MLP. Il fournit une solution analytique pour réduire la taille de la dimension cachée tout en minimisant la perte fonctionnelle de chaque composant (score d'attention, sortie d'attention et erreur de sortie MLP). Cela réduit directement la taille du modèle, la taille du cache KV et les FLOP sans surcharge d'exécution, et offre une nouvelle perspective pour faire évoluer le problème d'optimisation, de l'optimisation des pertes sur une seule couche linéaire à l'amélioration des performances de bout en bout. Les résultats expérimentaux montrent qu'A³ surpasse les performances de l'état de l'art actuel (SoTA), améliorant par exemple la perplexité WikiText-2 de LLaMA 3.1-70B de 7,87 à 4,69, soit 3,18, avec le même taux de calcul et de réduction de mémoire. Il présente également diverses applications potentielles, telles que la compression du cache KV, la quantification et l'allocation de rangs mixtes.