Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CALR : Décomposition adaptative corrective de bas rang pour une compression efficace de la couche de modèle de langage de grande taille

Created by
  • Haebom

Auteur

Muchammad Daniyal Kautsar, Afra Majida Hariono, Widyawan, Syukron Abu Ishaq Alfarozi, Kuntpong Woraratpanya

Contour

Cet article propose la décomposition adaptative corrective de bas rang (CALR), une nouvelle méthode qui améliore la technique de décomposition de bas rang en utilisant la décomposition en valeurs singulières (SVD) pour relever les défis du déploiement de modèles de langage à grande échelle (LLM), en particulier leur taille massive et leurs exigences de calcul élevées. Alors que les méthodes de compression existantes basées sur la SVD se concentrent sur la minimisation des erreurs de reconstruction de modèle, ce qui dégrade les performances fonctionnelles, CALR résout ce problème en combinant des couches compressées par SVD avec des modules de correction de bas rang parallèles entraînés pour récupérer les erreurs résiduelles fonctionnelles. Les résultats expérimentaux sur des modèles tels que SmolLM2-135M, Qwen3-0.6B et Llama-3.2-1B démontrent que CALR réduit le nombre de paramètres de 26,93 % et 51,77 %, respectivement, tout en maintenant respectivement 59,45 % et 90,42 % des performances du modèle d'origine, surpassant ainsi les méthodes existantes telles que LaCo, ShortGPT et LoSparse. Cela démontre que le traitement de la perte d’informations fonctionnelles comme un signal apprenable est un paradigme de compression efficace.

Takeaways, Limitations

Takeaways:
Un nouveau paradigme de compression qui traite la perte d’informations fonctionnelles comme un signal apprenable est présenté.
Développement d'un algorithme CALR qui surpasse les techniques de décomposition de bas rang existantes.
Augmenter le potentiel de déploiement dans le monde réel en réduisant la taille et les exigences de calcul du LLM.
ÉLargir l'utilisation des LLM dans les environnements aux ressources limitées
Limitations:
Les résultats expérimentaux présentés sont limités à un modèle spécifique et nécessitent des recherches supplémentaires sur la généralisabilité.
Une analyse du coût de calcul et du temps nécessaire à la formation du module de correction CALR est nécessaire.
Des expériences et des évaluations de performance supplémentaires sont nécessaires pour les LLM de différentes tailles et de différents types.
👍