본 논문은 대규모 언어 모델(LLM)의 추론 처리량과 지연 시간을 향상시키기 위한 KV 캐시 양자화 기법인 KVTuner를 제안합니다. 기존 방법들의 한계점인 계층별 민감도 간과, 온라인 미세 조정의 높은 오버헤드, LLM 및 제약 조건에 대한 낮은 유연성을 해결하기 위해, 계층별 트랜스포머 어텐션 패턴과 KV 캐시 양자화 오류 간의 상관관계를 분석하고, 키 캐시가 값 캐시보다 양자화 오류 감소에 중요한 이유를 밝힙니다. KVTuner는 다목적 최적화를 통해 하드웨어 친화적인 계층별 KV 양자화 정밀도 쌍을 적응적으로 검색하고, 오프라인으로 검색된 구성을 온라인 추론에 직접 활용하는 간단하면서도 효과적인 프레임워크입니다. 오프라인 보정의 계산 비용을 줄이기 위해 계층 내 KV 정밀도 쌍 가지치기와 계층 간 클러스터링을 사용하여 검색 공간을 줄입니다. 실험 결과, Llama-3.1-8B-Instruct와 같은 LLM에 대해 거의 손실 없는 3.25비트 혼합 정밀도 KV 캐시 양자화, 수학적 추론 작업에서 Qwen2.5-7B-Instruct와 같은 민감한 모델에 대해 4.0비트 양자화를 달성했습니다. 다양한 문맥 길이에 걸쳐 KV8 양자화와 비교하여 최대 추론 처리량을 38.3% 향상시켰습니다.