본 논문은 대규모 언어 모델(LLM)의 자동 회귀 디코딩 가속에 사용되는 KV-캐시의 메모리 사용량 증가 문제를 해결하기 위해, 적응형 KV-캐시 압축 기법인 GVote를 제안합니다. 기존 방법들이 고정된 압축 비율을 사용하는 것과 달리, GVote는 미래 쿼리의 어텐션 요구를 Monte-Carlo 샘플링을 통해 예측하여 최적의 캐시 크기를 동적으로 결정합니다. GSM8K, RULER, Longbench 등 다양한 벤치마크에서 실험을 통해, GVote가 기존 방법들에 비해 메모리 사용량을 2배 줄이면서 동등하거나 더 높은 정확도를 유지함을 보여줍니다.