본 논문은 대규모 언어 모델의 장문 추론 시 증가하는 키-값(KV) 캐시 크기 문제를 해결하기 위해, 어텐션 가중치에 의존하지 않는 새로운 KV 압축 전략인 LagKV를 제안합니다. 기존의 어텐션 가중치 기반 방법들은 추론 인프라의 주요 수정과 상당한 계산 오버헤드를 필요로 하는 반면, LagKV는 KV 간의 단순 비교만을 사용하여 어텐션 계산 없이도 효율적인 압축을 제공합니다. RULER 벤치마크 결과, LagKV는 SnapKV 및 StreamingLLM보다 우수한 성능을 보였으며, 특히 64자리 암호 검색 작업에서는 어텐션 가중치 기반 방법인 $H_2O$보다 50% 이상 성능이 향상되었습니다. 소스 코드는 깃허브에서 공개됩니다.