Cet article propose BitDecoding, un nouveau système d'inférence exploitant les caches KV low-bit pour répondre aux besoins croissants en mémoire et en bande passante de l'inférence des modèles de langage à grande échelle (LLM) à contexte long. BitDecoding permet un décodage efficace des caches KV low-bit en exploitant conjointement les cœurs CUDA et Tensor. Il inclut des techniques telles que la dérivation automatique de dispositions optimisées pour l'utilisation et la déquantification des cœurs Tensor via des stratégies de parallélisation au niveau de la chaîne. Il offre également un support système unifié grâce à un module de transformation de requêtes prenant en charge diverses variantes d'attention, un noyau de quantification haute performance prenant en charge la mise à l'échelle tensorielle et canalitaire utilisée dans divers algorithmes de quantification, et un noyau de déquantification avec un pipeline défini par logiciel qui coordonne l'exécution de CUDA et de Tensor Core. Les évaluations sur RTX 4090, A100 et H100 démontrent que BitDecoding offre des accélérations de décodage jusqu'à 7,5, 4,8 et 8,9 fois supérieures à celles de FP16 FlashDecoding-v2, et surpasse jusqu'à 4,3 fois celles du système QServe à faible débit de pointe. Des améliorations significatives sont également constatées pour la génération de contextes longs, avec notamment une réduction jusqu'à 3 fois de la latence de décodage par lot unique sur LLaMA-3.1-8B avec des contextes de 128 000. Le code est disponible sur GitHub.