Sign In

Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving

Created by
  • Haebom
Category
Empty

저자

Qihui Zhou, Peiqi Yin, Pengfei Zuo, James Cheng

개요

본 논문은 긴 문맥을 처리하는 현대 대규모 언어 모델(LLM)의 추론 비용을 줄이기 위한 새로운 메커니즘인 PSA(Progressive Sparse Attention)를 제안합니다. 기존의 동적 희소 어텐션 알고리즘(DSA)은 정확도와 효율성 사이의 절충을 필요로 하는 top-$k$ KV 캐시 선택에 의존하지만, PSA는 토큰과 레이어별 어텐션 가중치 분포에 따라 KV 캐시 예산을 적응적으로 조정하여 정확도를 높이면서 KV 캐시 사용량을 최소화합니다. 또한, 파이프라인 반복 기법과 통합된 GPU 메모리 관리를 통해 CPU-GPU 간 상호 작용 및 동기화 오버헤드를 줄이고 메모리 활용도를 최적화합니다. 실험 결과, PSA는 최첨단 DSA 및 희소 어텐션이 없는 시스템에 비해 KV 캐시 사용량을 최대 2.4배 및 8.8배 감소시키고, 종단 간 처리량을 최대 1.4배 및 2.0배 증가시키는 것을 보여줍니다.

시사점, 한계점

시사점:
LLM의 긴 문맥 처리 시 발생하는 높은 메모리 오버헤드 문제를 효과적으로 해결하는 새로운 방법 제시.
정확도와 효율성 사이의 절충 없이 LLM 추론 성능을 향상시킬 수 있음을 실험적으로 증명.
적응적 KV 캐시 예산 조정, 파이프라인 반복 기법, 통합 GPU 메모리 관리 등의 시스템적 혁신을 통해 성능 향상 달성.
LLM 서빙 시스템의 효율성 및 처리량을 크게 개선하여 실제 응용 가능성을 높임.
한계점:
PSA 알고리즘의 복잡성 및 구현의 어려움.
특정 모델 및 하드웨어 환경에 대한 최적화 여부에 대한 추가 연구 필요.
다양한 LLM 아키텍처 및 크기에 대한 일반화 가능성 검증 필요.
에너지 효율성에 대한 평가 부족.
👍