KVCapsule: Efficient Sequential KV Cache Compression for Vision-Language Models with Asymmetric Redundancy

작성자

Haebom

카테고리

Empty

저자

Yingbing Huang, Tharun Adithya Srikrishnan, Steven K. Reinhardt, Deming Chen

💡 개요

본 논문은 Vision-Language Models (VLMs)에서 autoregressive 디코딩 시 발생하는 KV 캐시 메모리 오버헤드 문제를 해결하기 위해 KVCapsule이라는 새로운 KV 캐시 압축 프레임워크를 제안합니다. 기존 LLM 압축 기법이 VLM의 시각 토큰 특성에 효과적이지 않다는 점에 착안하여, 동결된 VLM 백본을 유지하면서 경량 압축 및 복원 컴포넌트를 통해 KV 캐시를 효율적으로 압축합니다. 그 결과, 정확도 저하 없이 TPS 2배 향상 및 KV 캐시 메모리 2.4배 감소라는 뛰어난 성능을 달성했습니다.

🔑 시사점 및 한계

•

VLM의 시각 토큰 특성을 고려한 구조적 KV 캐시 압축 기법의 중요성을 제시합니다.

•

제안된 KVCapsule은 VLM의 사전 학습된 구조를 유지하면서 효율적인 메모리 압축 및 추론 속도 향상을 가능하게 합니다.

•

향후 연구에서는 다양한 VLM 아키텍처 및 태스크에 대한 KVCapsule의 일반화 가능성과 더욱 진보된 구조 인식 압축 기법에 대한 탐구가 필요합니다.

PDF 보기

Made with Slashpage