본 논문은 대규모 언어 모델(LLM)의 디코딩 속도를 높이기 위해 사용되는 Key-Value 캐시(KV 캐시)의 메모리 사용량 문제를 해결하기 위한 새로운 eviction framework, Lookahead Q-Cache (LAQ)를 제안합니다. LAQ는 실제 디코딩 쿼리에 더 가깝게 추정하기 위해 저비용 pseudo lookahead 쿼리를 생성하여 KV 캐시 eviction을 수행합니다. 실험 결과, LAQ는 LongBench 및 Needle-in-a-Haystack 벤치마크에서 기존 방법에 비해 우수한 성능을 보였으며, 특히 제한된 캐시 예산 환경에서 1~4점의 개선을 이루었습니다. 또한, LAQ는 기존 방식과 결합하여 추가적인 성능 향상을 얻을 수 있습니다.