본 논문은 긴 문맥을 처리하는 현대 대규모 언어 모델(LLM)의 추론 비용을 줄이기 위한 새로운 메커니즘인 PSA(Progressive Sparse Attention)를 제안합니다. 기존의 동적 희소 어텐션 알고리즘(DSA)은 정확도와 효율성 사이의 절충을 필요로 하는 top-$k$ KV 캐시 선택에 의존하지만, PSA는 토큰과 레이어별 어텐션 가중치 분포에 따라 KV 캐시 예산을 적응적으로 조정하여 정확도를 높이면서 KV 캐시 사용량을 최소화합니다. 또한, 파이프라인 반복 기법과 통합된 GPU 메모리 관리를 통해 CPU-GPU 간 상호 작용 및 동기화 오버헤드를 줄이고 메모리 활용도를 최적화합니다. 실험 결과, PSA는 최첨단 DSA 및 희소 어텐션이 없는 시스템에 비해 KV 캐시 사용량을 최대 2.4배 및 8.8배 감소시키고, 종단 간 처리량을 최대 1.4배 및 2.0배 증가시키는 것을 보여줍니다.