Este artículo propone BitDecoding, un novedoso sistema de inferencia que aprovecha cachés KV de bajo bit para abordar las crecientes demandas de memoria y ancho de banda de la inferencia de modelos de lenguaje a gran escala (LLM) de contexto largo. BitDecoding permite una decodificación eficiente de cachés KV de bajo bit mediante el aprovechamiento conjunto de núcleos CUDA y núcleos Tensor. Incluye técnicas como la derivación automática de diseños optimizados para el uso de núcleos Tensor y la descuantificación mediante estrategias de paralelización a nivel de warp. También proporciona soporte unificado del sistema mediante un módulo de transformación de consultas que admite diversas variantes de atención, un núcleo de cuantificación de alto rendimiento que admite el escalado por tensor y por canal utilizado en diversos algoritmos de cuantificación, y un núcleo de descuantificación con una canalización definida por software que coordina la ejecución de CUDA y núcleos Tensor. Las evaluaciones en RTX 4090, A100 y H100 demuestran que BitDecoding ofrece velocidades de decodificación hasta 7,5, 4,8 y 8,9 veces superiores a las de FP16 FlashDecoding-v2, y supera al sistema de vanguardia de baja tasa de bits QServe en hasta 4,3 veces. También se observan mejoras significativas en la generación de contextos largos, incluyendo una reducción de hasta 3 veces en la latencia de decodificación de un solo lote en LLaMA-3.1-8B con contextos de 128 000. El código está disponible en GitHub.