Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Décodage de bits : déverrouillage des cœurs de tenseurs pour les LLM à contexte long avec cache KV à faible bit

Created by
  • Haebom

Auteur

Dayou Du, Shijie Cao, Jianyi Cheng, Luo Mai, Ting Cao, Mao Yang

Contour

Cet article propose BitDecoding, un nouveau système d'inférence exploitant les caches KV low-bit pour répondre aux besoins croissants en mémoire et en bande passante de l'inférence des modèles de langage à grande échelle (LLM) à contexte long. BitDecoding permet un décodage efficace des caches KV low-bit en exploitant conjointement les cœurs CUDA et Tensor. Il inclut des techniques telles que la dérivation automatique de dispositions optimisées pour l'utilisation et la déquantification des cœurs Tensor via des stratégies de parallélisation au niveau de la chaîne. Il offre également un support système unifié grâce à un module de transformation de requêtes prenant en charge diverses variantes d'attention, un noyau de quantification haute performance prenant en charge la mise à l'échelle tensorielle et canalitaire utilisée dans divers algorithmes de quantification, et un noyau de déquantification avec un pipeline défini par logiciel qui coordonne l'exécution de CUDA et de Tensor Core. Les évaluations sur RTX 4090, A100 et H100 démontrent que BitDecoding offre des accélérations de décodage jusqu'à 7,5, 4,8 et 8,9 fois supérieures à celles de FP16 FlashDecoding-v2, et surpasse jusqu'à 4,3 fois celles du système QServe à faible débit de pointe. Des améliorations significatives sont également constatées pour la génération de contextes longs, avec notamment une réduction jusqu'à 3 fois de la latence de décodage par lot unique sur LLaMA-3.1-8B avec des contextes de 128 000. Le code est disponible sur GitHub.

Takeaways, Limitations_

Takeaways:
Nous avons considérablement amélioré les performances du décodage du cache KV à faible bit en exploitant les cœurs CUDA et les cœurs Tensor en parallèle.
Nous avons construit un système intégré qui offre une compatibilité avec divers algorithmes LLM et de quantification.
Nous avons considérablement amélioré la vitesse et l’efficacité de l’inférence LLM à long terme, augmentant ainsi son potentiel d’applications pratiques.
Les résultats expérimentaux démontrent clairement la supériorité de la méthode proposée.
Limitations:
Optimisé pour une architecture GPU spécifique, les performances sur d'autres architectures peuvent varier.
Des recherches supplémentaires pourraient être nécessaires sur les performances de généralisation de différents modèles LLM.
Une évaluation des performances pour des longueurs de contexte plus grandes est nécessaire.
👍