본 연구는 대규모 언어 모델(LLM) 내부의 주의 기반 정보 흐름이 긴 문맥 처리를 위해 눈에 띄는 패턴을 통해 집계되는지 여부를 조사합니다. 관찰 결과, LLM은 피라미드 정보 깔때기(Pyramidal Information Funneling)를 통해 정보를 집계하는데, 이는 하위 계층에서 주의가 광범위하게 분산되고, 특정 문맥 내에서 점진적으로 통합되어, 상위 계층에서 중요한 토큰(즉, 대규모 활성화 또는 주의 싱크)에 초점을 맞추는 것을 의미합니다. 이러한 통찰력에 따라 연구진은 새로운 효과적인 KV 캐시 압축 방법인 PyramidKV를 개발했습니다. 이 방법은 기존의 균일한 KV 캐시 크기를 유지하는 방법과 달리, 하위 계층에 더 많은 캐시를, 상위 계층에는 더 적은 캐시를 할당하여 다양한 계층에서 KV 캐시 크기를 동적으로 조정합니다. LongBench 벤치마크를 사용한 실험 평가 결과, PyramidKV는 전체 KV 캐시를 사용하는 모델의 성능과 일치하면서도 KV 캐시의 12%만 유지하여 메모리 사용량을 크게 줄였습니다. 메모리 효율성을 중시하는 시나리오에서는 KV 캐시의 0.7%만 유지하면서도, PyramidKV는 다른 KV 캐시 압축 기술을 능가하여 TREC 데이터셋에서 최대 20.5의 절대 정확도 향상을 달성했습니다. Needle-in-a-Haystack 실험에서 PyramidKV는 LLM에서 긴 문맥 이해를 유지하는 데 있어 경쟁 방법보다 우수한 성능을 보였습니다. 특히, 단 128개의 KV 캐시 항목만 유지해도 LLAMA-3-70B 모델은 100.0 Acc. 성능을 달성했습니다.