대규모 언어 모델(LLM)의 효율적인 자동 회귀 추론에 필수적인 Key-Value(KV) 캐시의 무제한적인 증가는 상태가 있는 멀티 턴 시나리오에서 주요 과제를 제시합니다. 이 논문은 KV 캐시 관리 전략, meta-llama/Meta-Llama-3-8b-instruct와 같은 모델의 아키텍처 컨텍스트 제한, 그리고 종종 간과되는 위치 인코딩의 무결성 간의 상호 작용을 조사합니다. 상태가 있는 벤치마킹 프레임워크를 사용한 경험적 분석을 통해, 누적된 KV 캐시가 모델의 훈련된 컨텍스트 윈도우(예: Llama 3의 경우 8192 토큰)에 근접하거나 초과할 때 LLM 생성 품질이 급격히 저하된다는 것을 보여줍니다. 이는 GPU 메모리 고갈과는 다른 실패 모드입니다. 일반적인 제거 전략, 심지어 높은 보존율을 가진 전략(예: AttentionTop을 통한 99%)조차도 위치 일관성을 방해하면 성능을 악화시킬 수 있습니다. LLM은 일관된 위치 신호(예: RoPE)에 의존하기 때문에, 비연속 토큰을 제거하여 캐시를 압축하면 이러한 신호가 뒤섞여 퇴행적인 출력을 초래할 수 있습니다. 또한 연속적인 컨텍스트 블록을 보존하는 간단한 전략(예: 초기 "요점" 유지)이 복잡하거나 위치를 방해하는 전략보다 더 일관된 생성을 생성할 수 있음을 보여줍니다. 아키텍처적 제한을 존중하고, 위치 구조를 보존하며, 단순한 크기를 넘어 "캐시 상태"를 전체적으로 고려하는 제거 기술을 권장합니다.