본 논문은 장문 추론에서의 효율성을 높이기 위해 Key-Value(KV) 캐시 압축 방법인 ReCalKV를 제안합니다. 기존의 저차원 압축 방법들은 추가적인 계산이나 성능 저하를 야기하는 반면, ReCalKV는 Key와 Value의 역할 차이를 고려하여 별도의 압축 전략을 적용합니다. Key에 대해서는 Head-wise Similarity-aware Reordering (HSR)을 통해 유사한 헤드들을 그룹화하고 grouped SVD를 적용하여 계산량을 줄이고 정확도를 유지하며, Value에 대해서는 Offline Calibration and Matrix Fusion (OCMF)을 통해 추가적인 계산 없이 정확도를 유지합니다. 실험 결과, ReCalKV는 기존의 저차원 압축 방법들보다 높은 압축률과 최소한의 성능 저하를 달성함을 보여줍니다. 소스 코드와 모델은 https://github.com/XIANGLONGYAN/ReCalKV 에서 제공됩니다.