Sign In

KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference

Created by
  • Haebom
Category
Empty

저자

Xing Li, Zeyu Xing, Yiming Li, Linping Qu, Hui-Ling Zhen, Wulong Liu, Yiwu Yao, Sinno Jialin Pan, Mingxuan Yuan

개요

본 논문은 대규모 언어 모델(LLM)의 추론 처리량과 지연 시간을 개선하기 위해 KV 캐시 양자화를 연구합니다. 기존 방법들의 한계점인 계층별 민감도 간과, 온라인 미세 조정의 높은 오버헤드, 다양한 LLM 및 제약 조건에 대한 낮은 유연성을 해결하기 위해, 계층별 트랜스포머 어텐션 패턴과 KV 캐시 양자화 오류 간의 상관관계를 분석하고, 키 캐시가 값 캐시보다 양자화 오류 감소에 더 중요한 이유를 연구합니다. 이를 바탕으로, 다목적 최적화를 통해 하드웨어 친화적인 계층별 KV 양자화 정밀도 쌍을 적응적으로 검색하고, 오프라인으로 검색된 구성을 온라인 추론 중에 직접 사용하는 간단하면서도 효과적인 프레임워크인 KVTuner를 제안합니다. 오프라인 보정의 계산 비용을 줄이기 위해 계층 내 KV 정밀도 쌍 가지치기와 계층 간 클러스터링을 사용하여 검색 공간을 줄입니다. 실험 결과, Llama-3.1-8B-Instruct와 같은 LLM에 대해 거의 손실 없는 3.25비트 혼합 정밀도 KV 캐시 양자화, 수학적 추론 작업에 민감한 모델인 Qwen2.5-7B-Instruct에 대해서는 4.0비트 양자화를 달성했습니다. 다양한 컨텍스트 길이에 대해 KV8 양자화와 비교하여 최대 추론 처리량을 38.3% 향상시켰습니다. 코드와 검색된 구성은 https://github.com/cmd2001/KVTuner 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
계층별 KV 캐시 양자화 정밀도를 효과적으로 최적화하는 KVTuner 프레임워크 제시.
다양한 LLM 및 제약 조건에 대한 높은 유연성 확보.
오프라인 최적화를 통해 온라인 추론 속도 향상 및 오버헤드 감소.
Llama-3.1-8B-Instruct 및 Qwen2.5-7B-Instruct 등의 LLM에서 유의미한 성능 향상 (최대 38.3% 추론 처리량 향상).
손실이 거의 없는 고효율의 저비트 양자화 달성.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 LLM 아키텍처 및 작업에 대한 광범위한 실험 필요.
오프라인 보정 과정 자체의 계산 비용이 여전히 상당할 수 있음.
특정 하드웨어 환경에 대한 최적화 수준이 제한적일 수 있음.
👍