본 논문은 대규모 언어 모델(LLM)을 효율적으로 서비스하기 위해 필요한 핵심 가치(KV) 캐시 관리 기술을 제시합니다. 특히, 반복적인 코드 편집 및 채팅과 같이 공통 접두어를 공유하는 프롬프트를 통해 대화 턴 간 KV 캐시를 재사용하는 경우를 고려합니다. 본 연구에서는 경량 변환 코더인 KVTC를 제안하여 KV 캐시를 압축함으로써 GPU 내 및 외부 저장 공간을 효율적으로 활용합니다. PCA 기반 특징 역상관, 적응형 양자화, 엔트로피 코딩을 결합하여 최대 20배, 특정 사용 사례에서는 40배 이상의 압축을 달성하면서 추론 및 장문 컨텍스트 정확도를 유지합니다. Llama 3, Mistral NeMo, R1-Qwen 2.5 모델을 AIME25, LiveCodeBench, GSM8K, MMLU, Qasper, RULER, MATH-500 등의 벤치마크를 통해 테스트하여, 토큰 삭제, 양자화, SVD 기반 방법과 같은 추론 시간 기준선보다 우수한 성능을 보였습니다.