본 논문은 장문 컨텍스트 시나리오에서 LLM의 자원 제약을 완화하기 위한 효과적인 해결책으로 KV 캐시 제거 방식을 제시합니다. 기존 토큰 단위 제거 방식의 한계점인 비가역적인 제거 전략으로 인한 동적 어텐션 패턴 변화에 대한 적응 실패(saliency shift problem)와 중요도가 낮은 토큰과 실제로 중요하지 않은 토큰을 동일하게 처리하여 모델 성능에 대한 중요도가 낮은 토큰의 집합적 중요성을 간과하는 문제(marginal information over-compression problem)를 지적합니다. 이를 해결하기 위해 서로 다른 크기의 LLM 간 어텐션 매트릭스의 높은 유사성을 기반으로 두 가지 보상 메커니즘을 설계한 SmallKV를 제안합니다. SmallKV는 작은 모델을 이용하여 어텐션 매칭을 유지하여 큰 모델이 어텐션의 전역적으로 중요한 정보를 인지하도록 돕고, 작은 모델의 어텐션 점수를 사용하여 큰 모델의 중요도가 낮은 토큰의 어텐션 점수를 근사합니다. GSM8K, BBH, MT-Bench, LongBench 등의 벤치마크에 대한 광범위한 실험을 통해 SmallKV의 효과를 입증하고, 기준 방법보다 1.75~2.56배 높은 처리량을 달성하여 자원 제약 환경에서 효율적이고 성능이 우수한 LLM 추론의 가능성을 보여줍니다.