본 논문은 대규모 언어 모델(LLM)의 디코딩 속도를 높이기 위해 기존 토큰에서 생성된 KV 텐서를 저장하는 키-값(KV) 캐시의 효율성을 개선하는 새로운 방법인 SQuat (Subspace-orthogonal KV cache quantization)을 제안합니다. 기존 KV 텐서 압축 방식은 양자화 오류 누적 문제를 가지는 반면, SQuat은 쿼리 텐서로 형성된 부분 공간을 이용하여 양자화 오류의 영향을 최소화합니다. 모델 미세 조정이나 추가적인 보정 데이터셋 없이도, 이론적 토대를 바탕으로 메모리 사용량 감소, 처리량 향상 및 성능 향상을 달성합니다.