본 논문은 대규모 언어 모델(LLM)의 효율적인 추론을 저해하는 증가하는 키-값(KV) 캐시 문제를 해결하기 위해, 정보 손실 및 환각을 야기하는 기존의 선택적 KV 캐시 삭제 방식을 넘어서는 새로운 적응형 KV 캐시 병합 방법인 KeepKV를 제안합니다. KeepKV는 병합 이력을 기록하고 어텐션 점수를 적응적으로 조정하는 Electoral Votes 메커니즘과 어텐션 일관성을 유지하고 캐시 병합으로 인한 어텐션 손실을 보상하는 Zero Inference-Perturbation Merging 방법을 통해 출력 섭동을 제거하면서 성능을 유지합니다. 다양한 벤치마크와 LLM 아키텍처에 대한 실험 결과, KeepKV는 메모리 사용량을 크게 줄이고 추론 처리량을 2배 이상 향상시키면서 10%의 KV 캐시 예산에서도 우수한 생성 품질을 유지함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
제한된 메모리 환경에서 LLM 추론의 효율성을 크게 향상시킬 수 있는 새로운 KV 캐시 관리 기법을 제시합니다.
◦
기존의 병합 기반 방법의 한계점인 출력 섭동 문제를 효과적으로 해결합니다.
◦
메모리 사용량 감소와 추론 처리량 향상을 동시에 달성하며, 생성 품질 저하 없이 높은 성능을 유지합니다.
•
한계점:
◦
KeepKV의 Electoral Votes 메커니즘과 Zero Inference-Perturbation Merging 방법의 일반화 가능성에 대한 추가적인 연구가 필요합니다.
◦
다양한 LLM 아키텍처와 벤치마크에 대한 실험 결과는 제시되었으나, 특정한 유형의 LLM이나 작업에 대한 성능 저하 가능성을 배제할 수 없습니다.