Sign In

KV Cache Transform Coding for Compact Storage in LLM Inference

Created by
  • Haebom
Category
Empty

저자

Konrad Staniszewski, Adrian {\L}ancucki

개요

본 논문은 대규모 언어 모델(LLM)을 효율적으로 서비스하기 위해 필요한 핵심 가치(KV) 캐시 관리 기술을 제시합니다. 특히, 반복적인 코드 편집 및 채팅과 같이 공통 접두어를 공유하는 프롬프트를 통해 대화 턴 간 KV 캐시를 재사용하는 경우를 고려합니다. 본 연구에서는 경량 변환 코더인 KVTC를 제안하여 KV 캐시를 압축함으로써 GPU 내 및 외부 저장 공간을 효율적으로 활용합니다. PCA 기반 특징 역상관, 적응형 양자화, 엔트로피 코딩을 결합하여 최대 20배, 특정 사용 사례에서는 40배 이상의 압축을 달성하면서 추론 및 장문 컨텍스트 정확도를 유지합니다. Llama 3, Mistral NeMo, R1-Qwen 2.5 모델을 AIME25, LiveCodeBench, GSM8K, MMLU, Qasper, RULER, MATH-500 등의 벤치마크를 통해 테스트하여, 토큰 삭제, 양자화, SVD 기반 방법과 같은 추론 시간 기준선보다 우수한 성능을 보였습니다.

시사점, 한계점

시사점:
KV 캐시 압축을 통해 GPU 메모리 효율성을 개선하여 LLM 서비스 비용 절감 가능
추론 및 장문 컨텍스트 정확도를 유지하면서 높은 압축률 달성
다양한 LLM 모델 및 벤치마크에서 우수한 성능 입증
모델 파라미터 변경 없이 적용 가능
재사용 가능한 KV 캐시를 통한 메모리 효율적인 LLM 서비스 구축을 위한 실용적인 기술 제공
한계점:
초기 보정을 위한 추가적인 과정 필요
구체적인 사용 사례에 따라 압축률이 달라질 수 있음
논문에 제시된 구체적인 모델 및 벤치마크 외의 다른 환경에서의 성능에 대한 추가적인 연구 필요
👍