본 논문은 장문 맥락 처리에서의 성능 저하와 계산 복잡도 문제를 해결하기 위해, 훈련이 필요 없는 새로운 방법인 Dynamic Token-Level KV Cache Selection (TokenSelect)을 제안합니다. TokenSelect는 토큰 단위의 중요도 측정을 통해 중요한 KV 캐시 토큰만 선택적으로 사용하여 어텐션 계산을 수행합니다. Query 유사성 관찰을 기반으로 설계된 Selection Cache와 효율적인 Paged Dot Product Kernel을 통해 선택 오버헤드를 줄여 속도를 향상시킵니다. 실험 결과, 기존 방법들보다 우수한 성능과 최대 23.84배의 어텐션 계산 속도 향상 및 최대 2.28배의 종단 간 지연 시간 단축을 달성했습니다.
시사점, 한계점
•
시사점:
◦
훈련 없이 장문 맥락 처리의 속도와 정확도를 동시에 향상시키는 효과적인 방법 제시.
◦
기존의 장문 맥락 처리 방법들의 한계점인 속도 저하 문제를 효과적으로 해결.
◦
토큰 단위의 중요도 측정 및 선택적 KV 캐시 활용을 통해 계산 비용 절감.
•
한계점:
◦
제안된 방법의 성능이 특정 데이터셋이나 모델에 편향될 가능성 존재.
◦
Selection Cache와 Paged Dot Product Kernel의 효율성이 데이터셋 크기나 모델 크기에 따라 달라질 수 있음.