본 논문은 장문맥락 대규모 언어 모델(LLM)의 자기회귀적 디코딩 과정에서 증가하는 Key-Value(KV) 캐시의 메모리 및 계산 비용 문제를 해결하기 위해, GPU 최적화 프레임워크인 BitDecoding을 제안한다. 기존의 저비트 KV 캐시는 양자화 및 역양자화 오버헤드와 Tensor Core 활용 부족으로 인해 예상되는 속도 향상을 달성하지 못하는 한계를 가지고 있었다. BitDecoding은 Tensor Core 중심의 BitFusion Scheme을 통해 Tensor Core의 높은 활용률을 보장하고, warp-efficient 병렬 디코딩 커널 및 세분화된 비동기 파이프라인을 통합하여 역양자화 오버헤드를 최소화하고 계산 효율을 향상시킨다. 실험 결과, BitDecoding은 FP16 FlashDecoding-v2 대비 RTX 4090에서 최대 7.5배, A100에서 4.8배, H100에서 8.9배의 속도 향상을 달성했으며, 최첨단 저비트 KV 캐시 구현인 QServe보다 최대 4.3배 우수한 성능을 보였다. LLaMA-3.1-8B 모델과 128K 시퀀스 길이에서 단일 배치 디코딩 지연 시간을 3배 단축시켰다.