본 논문은 장문맥락 대규모 언어 모델(LLM) 추론 시 증가하는 메모리 및 대역폭 요구를 해결하기 위해, 낮은 비트(low-bit) KV 캐시를 활용한 새로운 추론 시스템인 BitDecoding을 제안합니다. BitDecoding은 CUDA 코어와 Tensor Core를 협력적으로 활용하여 효율적인 저비트 KV 캐시 디코딩을 가능하게 합니다. Tensor Core 활용을 위한 최적화된 레이아웃 자동 유도, 워프 수준 병렬화 전략을 통한 양자화 해제 등의 기법을 포함하며, 다양한 어텐션 변형을 지원하는 쿼리 변환 모듈, 다양한 양자화 알고리즘에서 사용되는 텐서 단위 및 채널 단위 스케일링을 지원하는 고성능 양자화 커널, CUDA 및 Tensor Core 실행을 조정하는 소프트웨어 정의 파이프라인을 갖춘 양자화 해제 커널 등을 통해 통합 시스템 지원을 제공합니다. RTX 4090, A100, H100에서 평가한 결과, BitDecoding은 FP16 FlashDecoding-v2 대비 최대 7.5x, 4.8x, 8.9x의 디코딩 속도 향상을 보였으며, 최첨단 저비트 시스템인 QServe를 최대 4.3x까지 능가했습니다. 128K 문맥을 가진 LLaMA-3.1-8B에서 단일 배치 디코딩 지연 시간을 3배까지 줄이는 등 장문맥 생성에 대한 상당한 개선을 보였습니다. 코드는 GitHub에서 공개됩니다.