본 논문은 대규모 언어 모델(LLM)의 추론 처리량과 지연 시간을 개선하기 위해 KV 캐시 양자화를 연구합니다. 기존 방법들의 한계점인 계층별 민감도 간과, 온라인 미세 조정의 높은 오버헤드, 다양한 LLM 및 제약 조건에 대한 낮은 유연성을 해결하기 위해, 계층별 트랜스포머 어텐션 패턴과 KV 캐시 양자화 오류 간의 상관관계를 분석하고, 키 캐시가 값 캐시보다 양자화 오류 감소에 더 중요한 이유를 연구합니다. 이를 바탕으로, 다목적 최적화를 통해 하드웨어 친화적인 계층별 KV 양자화 정밀도 쌍을 적응적으로 검색하고, 오프라인으로 검색된 구성을 온라인 추론 중에 직접 사용하는 간단하면서도 효과적인 프레임워크인 KVTuner를 제안합니다. 오프라인 보정의 계산 비용을 줄이기 위해 계층 내 KV 정밀도 쌍 가지치기와 계층 간 클러스터링을 사용하여 검색 공간을 줄입니다. 실험 결과, Llama-3.1-8B-Instruct와 같은 LLM에 대해 거의 손실 없는 3.25비트 혼합 정밀도 KV 캐시 양자화, 수학적 추론 작업에 민감한 모델인 Qwen2.5-7B-Instruct에 대해서는 4.0비트 양자화를 달성했습니다. 다양한 컨텍스트 길이에 대해 KV8 양자화와 비교하여 최대 추론 처리량을 38.3% 향상시켰습니다. 코드와 검색된 구성은 https://github.com/cmd2001/KVTuner 에서 확인할 수 있습니다.