Rotary Position Embedding (RoPE) 기반 어텐션에서의 Key-Value (KV) 캐시 압축 문제를 해결하기 위한 새로운 프레임워크인 EliteKV를 제안한다. RoPE의 비선형성으로 인해 KV 캐시 압축이 어려운 점을 해결하고자, RoPElite를 이용하여 각 어텐션 헤드의 고유 주파수 선호도를 식별하고, 특정 차원의 키에 선형성을 선택적으로 복원한다. 이를 기반으로 키와 값의 저차원 압축 및 부분 캐시 공유를 가능하게 한다. 결과적으로, 원래 학습 데이터의 0.6%만을 사용한 최소한의 재학습만으로도 RoPE 기반 모델의 KV 캐시 크기를 75% 줄이면서 성능 저하를 최소화한다. 또한, 동일 계열의 다양한 크기의 모델에서 일관되게 우수한 성능을 보인다.
시사점, 한계점
•
시사점:
◦
RoPE 기반 모델의 KV 캐시 크기를 효과적으로 줄이는 새로운 방법 제시.
◦
최소한의 재학습으로 성능 저하 없이 KV 캐시 압축 달성.
◦
다양한 크기의 모델에서 일관된 성능 향상.
◦
RoPE의 비선형성 문제를 효과적으로 해결.
•
한계점:
◦
제안된 방법이 RoPE 기반 모델에 특화되어 다른 유형의 어텐션 메커니즘에는 적용이 어려울 수 있음.
◦
제한된 양의 재학습 데이터만 사용하였으므로, 더 큰 규모의 데이터셋에서의 성능은 추가적인 실험이 필요함.