Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

QuickSilver – Accélération de l'inférence LLM grâce à l'arrêt dynamique des jetons, au saut KV, à la fusion contextuelle des jetons et à la quantification adaptative de Matryoshka

Created by
  • Haebom

Auteur

Danush Khanna, Aditya Kumar Guru, Srivarshinee Sridhar, Zidan Ahmed, Rubhav Bahirwani, Meetu Malhotra, Vinija Jain, Aman Chadha, Amitava Das, Kripabandhu Ghosh

Contour

Dans cet article, nous proposons QuickSilver, un nouveau framework permettant de réduire la latence et la consommation énergétique de l'inférence des modèles de langage à grande échelle (LLM). Il vise à améliorer l'efficacité du processus d'inférence, qui représente plus de 90 % du coût de l'inférence LLM. Contrairement aux méthodes existantes telles que l'élagage, la quantification, la terminaison anticipée et le décodage prédictif, qui nécessitent un réentraînement ou une restructuration du modèle, QuickSilver permet une adaptabilité sémantique au moment de l'inférence sans modifier les pondérations ou l'architecture du modèle. QuickSilver intègre trois techniques : l'arrêt dynamique des jetons, le saut de cache KV et la fusion contextuelle des jetons, permettant ainsi une réduction du FLOP allant jusqu'à 39,6 % sur les modèles GPT-2 et Llama-2 tout en minimisant la dégradation de la perplexité (<=0,2).

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode qui peut améliorer considérablement la vitesse d’inférence et l’efficacité énergétique sans modifier la structure du modèle.
ÉLimine le besoin de réapprentissage ou de changements structurels dans les méthodes existantes.
Démontre l’applicabilité à divers modèles tels que GPT-2 et Llama-2.
Réduisez la complexité de calcul sans sacrifier les performances grâce à l'adaptabilité sémantique.
Limitations:
Manque d’analyse détaillée de l’efficacité des trois techniques présentées.
Des expériences supplémentaires avec différents modèles et ensembles de données sont nécessaires.
Manque d’évaluation des performances dans des environnements de déploiement réels.
Manque d’analyse comparative avec d’autres techniques d’optimisation d’inférence de pointe.
👍