Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rotation groupée et organisée : optimisation de la transformation de rotation pour la quantification gratuite

Created by
  • Haebom

Auteur

Euntae Choi, Sumin Song, Woosang Lim, Sungjoo Yoo

Contour

Cet article propose une nouvelle méthode de génération de matrices de rotation basée sur la quantification post-entraînée (PTQ) pour relever les défis du déploiement des modèles de langage à grande échelle (LLM), qui nécessitent des ressources de calcul coûteuses. Pour remédier à la dégradation des performances des méthodes existantes basées sur la rotation à très faible largeur de bit, par exemple 2 bits, nous présentons une nouvelle approche qui réduit les erreurs de quantification en regroupant les composantes fréquentielles similaires à l'aide de la transformée de Walsh-Hadamard et de l'alignement de séquence. Plus précisément, nous démontrons la technique de rotation par alignement de séquence groupée (GSR), qui utilise une matrice diagonale par blocs avec de petits blocs de Walsh, isolant efficacement l'influence des valeurs aberrantes et obtenant des performances comparables aux méthodes d'optimisation par apprentissage. Nous validons les performances de la méthode proposée par des tâches d'inférence et des évaluations de score de perplexité (PPL) sur le jeu de données WikiText-2, démontrant ainsi son amélioration par rapport aux techniques de rotation apprises existantes.

Takeaways, Limitations

Takeaways:
Cela peut réduire considérablement le coût du déploiement de LLM en permettant une quantification post-formation efficace même à des largeurs de bits très faibles telles que 2 bits.
Il s’agit d’une méthode sans formation qui ne nécessite pas d’apprentissage, elle peut donc réduire les coûts de calcul par rapport aux méthodes existantes basées sur l’optimisation.
Elle peut être appliquée en complément des techniques de rotation apprises existantes pour améliorer les performances.
Notre nouvelle méthode de génération de matrice de rotation utilisant la transformée de Walsh-Hadamard et l'alignement de séquence a une grande applicabilité à d'autres problèmes de quantification.
Limitations:
Les performances de la méthode proposée sont basées sur des résultats expérimentaux sur un ensemble de données spécifique (WikiText-2), et les performances de généralisation à d'autres ensembles de données ou tâches nécessitent des recherches supplémentaires.
En raison de la nature de la transformée de Walsh-Hadamard, sa complexité de calcul peut augmenter lorsqu'elle est appliquée à des modèles de grande dimension.
Une analyse supplémentaire de l’applicabilité et des performances pour diverses architectures LLM est nécessaire.
👍