본 논문은 Transformer 모델의 긴 컨텍스트 처리에 대한 어려움을 해결하기 위해 KV-Distill이라는 새로운 압축 프레임워크를 제시합니다. 기존 Transformer의 self-attention 메커니즘은 컨텍스트 길이에 따라 계산 복잡도가 이차적으로 증가하고, KV 캐시의 메모리 사용량 또한 선형적으로 증가하는 문제점을 가지고 있습니다. KV-Distill은 질문과 독립적으로 긴 컨텍스트의 KV 캐시를 훨씬 더 짧은 표현으로 증류하는 방법을 제안합니다. 이는 사전 훈련된 모델에 매개변수 효율적인 어댑터로 훈련될 수 있으며, 임의의 컨텍스트 구간을 압축하면서 사전 훈련된 모델의 성능을 유지합니다. 압축된 캐시와 압축되지 않은 캐시를 학생-교사 쌍으로 취급하여 KL-divergence를 사용하여 생성된 출력을 일치시킵니다. 실험 결과, KV-Distill은 여러 가지 모델 크기와 아키텍처에서 우수한 성능을 보이며, 특히 최악의 경우 추출 작업에서 다른 압축 기술보다 뛰어난 성능을 보이고, 긴 컨텍스트 질문 응답 및 요약 작업에서는 압축되지 않은 성능에 근접합니다. 또한, 특정 도메인의 컨텍스트에 대해 미세 조정하여 최대 99%까지 길이를 줄이면서 하위 작업 성능을 유지할 수 있습니다.