본 논문은 Transformer의 제한적인 context window 크기로 인해 발생하는 계산 비용 증가 문제를 해결하기 위해, 계층적 서브 캐시 버퍼를 활용한 새로운 메커니즘을 제안합니다. 기존의 key-value caching 방법들이 context 정보의 조기 삭제로 인한 성능 저하 및 느린 prefill 단계의 문제점을 가지는 반면, 본 논문에서 제안하는 방법은 가장 관련성이 높은 토큰들을 선택적으로 유지하여 더 긴 context history를 유지하면서도 캐시 크기 증가를 억제합니다. 이를 통해 streaming perplexity, 질의응답, 책 요약, 패스키 검색 등 다양한 벤치마크에서 기존 선형 캐싱 기반 방법들보다 우수한 성능을 보이며, 특히 1M 토큰에서 캐시 크기를 네 배 증가시킨 후에도 더 나은 검색 정확도를 유지합니다. 또한, 1M 토큰에서 prefill 단계 지연 시간을 Flash Attention 대비 6.8배 감소시킵니다. 이는 LLMs의 계산 효율성을 높이고, 자원 제약 환경에서도 효과적인 배포를 가능하게 하여 대규모 실시간 애플리케이션 구현에 기여합니다.