본 논문은 Transformer의 제한된 context window 문제를 해결하기 위해 cascading sub-cache buffers를 활용한 새로운 메커니즘을 제시합니다. 기존의 key-value caching 방법들이 context를 비효율적으로 관리하고, prefill 단계에서 높은 latency를 보이는 문제점을 해결하고자, 가장 관련성이 높은 tokens을 선택적으로 유지하는 방식을 통해 더 긴 context history를 유지하면서도 cache 크기를 늘리지 않습니다. 이를 통해 streaming perplexity, question answering, book summarization, passkey retrieval 등 다양한 benchmark에서 기존의 linear caching 방법보다 우수한 성능을 보이며, 특히 1M tokens에서도 높은 retrieval accuracy를 유지합니다. 또한, prefill 단계의 latency를 획기적으로 줄이는 효과도 확인했습니다.