본 논문은 장문 맥락(long context)을 처리하는 대규모 언어 모델(LLM)의 추론 효율성 문제를 해결하기 위해, 의미 기반 클러스터링을 활용한 KV 캐시 압축 기법인 ClusterKV를 제안합니다. 기존의 토큰 삭제 또는 페이지 단위 재호출 방식과 달리, ClusterKV는 의미 클러스터 단위로 토큰을 재호출하여 정확도 저하 없이 효율적인 KV 캐시 압축을 달성합니다. 효율적인 클러스터링, 선택, 색인 및 캐싱 알고리즘과 시스템을 설계 및 구현하여, 32k 맥락 길이에서 1k~2k KV 캐시 크기로도 무시할 만한 정확도 손실 없이 최대 2배의 속도 향상과 2.5배의 디코딩 처리량 개선을 달성했습니다. 기존 최첨단(SoTA) 재호출 가능한 KV 압축 방법과 비교하여, ClusterKV는 더 높은 모델 정확도와 출력 품질을 유지하면서 추론 효율성을 유지하거나 능가합니다.