본 논문은 LLM 추론 시 고유한 키(key)가 높은 어텐션 점수를 갖는 경향이 있음을 보여줍니다. 이 현상을 탐구하여 키 유사성을 기반으로 하는 학습이 필요 없는 KV 캐시 제거 방법인 KeyDiff를 제안합니다. KeyDiff는 제한된 메모리와 연산 예산을 가진 자원 제약 환경에서 긴 입력 프롬프트를 필요로 하는 LLM 기반 애플리케이션의 배포를 용이하게 합니다. 다른 KV 캐시 제거 방법과 달리, KeyDiff는 엄격한 자원 제약 내에서 임의로 긴 프롬프트를 처리하고 효율적으로 응답을 생성할 수 있습니다. KeyDiff가 키 다양성을 극대화하는 KV 캐시 선택 문제에 대한 최적 해결책을 계산함을 보여주며, KeyDiff에 대한 이론적 이해를 제공합니다. 특히 KeyDiff는 어텐션 점수에 의존하지 않으므로 FlashAttention과 같은 최적화된 어텐션 메커니즘을 사용할 수 있습니다. 다양한 작업과 모델에서 KeyDiff의 효과를 보여주며, LongBench 벤치마크에서 Llama 3.1-8B 및 Llama 3.2-3B에 대해 8K 캐시 예산(~23% KV 캐시 감소)을 사용하여 비제거 기준과 0.04% 미만의 성능 차이를 보입니다.