ZeroMerge: Parameter-Free KV Cache Compression for Memory-Efficient Long-Context LLMs
Created by
Haebom
Category
Empty
저자
Xin Liu, Pei Liu, Guoming Tang
개요
본 논문은 장문맥락 처리에서 대규모 언어 모델(LLM)의 성능 저하를 야기하는 키-값(KV) 캐시 메모리의 선형적 증가와 이차적 계산 복잡도 문제를 해결하기 위해 제로샷 압축 프레임워크인 ZeroMerge를 제안한다. ZeroMerge는 세 가지 핵심 혁신, 즉 (1) 헤드 수준의 다차원 토큰 중요도 지표를 이용한 세분화된 메모리 할당, (2) 보상된 어텐션 점수를 통한 중요한 맥락을 보존하는 잔차 병합 메커니즘, (3) 재훈련 없이 다양한 LLM 아키텍처와 호환되는 매개변수 없는 적응을 통해 효율적인 캐시 관리를 달성한다. LLaMA-2 모델에 대한 종합적인 평가 결과, ZeroMerge는 5% 압축률에서 전체 캐시 성능을 유지하면서 40K 토큰 길이에서 추론 처리량을 두 배로 향상시키는 것으로 나타났다. 본 연구는 메모리 효율성, 생성 품질 및 배포 유연성 간의 균형을 효과적으로 맞추어 실용적인 장문맥락 LLM 애플리케이션을 발전시킨다. 코드는 https://github.com/SusCom-Lab/ZeroMerge 에서 이용 가능하다.