본 논문은 장문 컨텍스트 토큰 생성에 있어 높은 메모리 요구량을 갖는 대규모 언어 모델(LLM)의 문제점을 해결하기 위해, 어텐션 근사화의 스트리밍 복잡도를 연구합니다. 주요 기여는 Banaszczyk의 벡터 균형 이론에 따라 균형 잡힌 Key와 Value 토큰 집합을 선택하는 기하학적 과정을 기반으로 한, 어텐션 계산을 ε-근사하는 스트리밍 알고리즘인 BalanceKV를 제시하는 것입니다. 이와 함께 스트리밍 어텐션 계산에 대한 공간 하한선을 제시하고, 이론적 보장뿐 아니라 다양한 장문 컨텍스트 벤치마크에서 기존 방법보다 실험적으로 검증된 성능 향상을 보여줍니다.