본 논문은 추론 모델의 연쇄 사고(chain-of-thought) 추론 시 과도하게 긴 출력으로 인해 발생하는 KV 캐시 문제를 해결하기 위해, 중복 토큰을 고려한 새로운 KV 캐시 압축 방법인 R-KV를 제안합니다. R-KV는 기존 방법보다 훨씬 효율적으로 KV 캐시를 압축하여, 10%의 KV 캐시 용량으로도 전체 KV 캐시 성능의 거의 100%를 유지하며, 16%의 용량으로는 105%의 성능을 달성합니다. 이를 통해 메모리 사용량을 90% 절감하고 처리량을 6.6배 향상시키는 효과를 보입니다. 두 가지 수학적 추론 데이터셋에서 기존 방법 대비 우수한 성능을 보임을 실험적으로 확인했습니다.
시사점, 한계점
•
시사점:
◦
연쇄 사고 추론의 효율성을 획기적으로 개선하는 새로운 KV 캐시 압축 기법 R-KV 제시.