본 논문은 대규모 언어 모델(LLM) 추론 시 Key-Value(KV) 캐시의 메모리 자원 소모가 주요 병목 현상임을 지적하고, 이를 해결하기 위해 KV 캐시의 양자화 기법인 NQKV 알고리즘을 제안합니다. 기존 활성화 함수 양자화는 8비트에 국한되고 저비트 양자화는 정확도 저하를 초래하지만, NQKV는 KV 캐시 내 블록 단위 정규 분포 특성을 이용하여 블록별 분위수 양자화를 통해 정보 이론적으로 최적의 양자화 오차를 달성합니다. 결과적으로, 모델 성능 저하 없이 OPT 모델에서 배치 크기 2배 증가 또는 문맥 길이 4배 증가를 가능하게 하며, KV 캐시 미사용 대비 처리량을 9.3배 향상시킵니다.