Bài báo này đề xuất BitDecoding, một hệ thống suy luận mới tận dụng bộ nhớ đệm KV bit thấp để giải quyết nhu cầu bộ nhớ và băng thông ngày càng tăng của suy luận mô hình ngôn ngữ quy mô lớn (LLM) ngữ cảnh dài. BitDecoding cho phép giải mã bộ nhớ đệm KV bit thấp hiệu quả bằng cách kết hợp tận dụng lõi CUDA và lõi Tensor. Hệ thống bao gồm các kỹ thuật như tự động tạo ra các bố cục tối ưu cho việc sử dụng và giải lượng tử hóa lõi Tensor thông qua các chiến lược song song hóa cấp độ warp. Hệ thống cũng cung cấp hỗ trợ hệ thống thống nhất thông qua một mô-đun chuyển đổi truy vấn hỗ trợ nhiều biến thể chú ý khác nhau, một hạt nhân lượng tử hóa hiệu suất cao hỗ trợ việc mở rộng theo từng tensor và từng kênh được sử dụng trong nhiều thuật toán lượng tử hóa khác nhau, và một hạt nhân giải lượng tử hóa với một đường ống được xác định bằng phần mềm để điều phối việc thực thi CUDA và lõi Tensor. Các đánh giá trên RTX 4090, A100 và H100 cho thấy BitDecoding mang lại tốc độ giải mã nhanh hơn tới 7,5 lần, 4,8 lần và 8,9 lần so với FP16 FlashDecoding-v2, và vượt trội hơn hệ thống bitrate thấp QServe hiện đại tới 4,3 lần. Những cải tiến đáng kể cũng được ghi nhận đối với việc tạo ngữ cảnh dài, bao gồm giảm tới 3 lần độ trễ giải mã hàng loạt đơn trên LLaMA-3.1-8B với ngữ cảnh 128K. Mã nguồn có sẵn trên GitHub.