본 논문은 대규모 언어 모델(LLM)의 디코딩 속도를 높이기 위해 이전에 생성된 토큰의 키-값(KV) 텐서를 저장하는 KV 캐시의 효율성을 높이는 새로운 방법인 SQuat(Subspace-orthogonal KV cache quantization)을 제안합니다. 기존의 KV 텐서 압축 방식은 양자화 오류 누적 문제로 인해 원치 않는 출력을 초래할 수 있지만, SQuat은 쿼리 텐서로 생성된 부분 공간을 이용하여 양자화 오류의 영향을 최소화합니다. 모델 미세 조정이나 추가적인 보정 데이터셋 없이도 이론적 토대를 바탕으로 효율적인 KV 캐시 양자화를 수행하며, 실험 결과 기존 방법보다 메모리 사용량을 2.17배에서 2.82배 감소시키고 처리량을 2.45배에서 3.60배 향상시키는 동시에 더 나은 벤치마크 점수를 달성함을 보여줍니다.