# HeadQ: Model-Visible Distortion and Score-Space Correction for KV-Cache Quantization

### 저자

Jorge L. Ruiz Williams

### 💡 개요

본 연구는 KV 캐시 양자화에서 기존의 저장 공간 최적화 방식의 한계를 지적하며, 모델이 실제로 인지하는 오류 측정을 제안합니다. 이를 위해 키(key)의 경우 로짓(logit)에서의 점수 오류를 기반으로 한 HeadQ 방법을, 값(value)의 경우 어텐션 가중치를 고려한 토큰 왜곡을 측정하는 방식을 제안합니다. 제안된 방법론은 다양한 모델에서 기존 방식보다 훨씬 정확하게 어텐션 KL(Kullback-Leibler) 발산을 예측하며, 실제 양자화 성능에서도 효과를 입증했습니다.

### 🔑 시사점 및 한계

- KV 캐시 양자화 시, 단순히 저장 공간 축소를 넘어 모델이 실제로 인지하는 오류를 측정하는 것이 중요하다.

- 키(key) 양자화에서는 로짓 공간에서의 점수 오류를, 값(value) 양자화에서는 어텐션 가중치를 고려한 왜곡을 측정하는 것이 성능 향상에 기여한다.

- 제안된 HeadQ 방법은 모델의 로우-랭크 잔차 부호화를 활용하여 효과적인 로짓 보정을 가능하게 한다.

- 아직 특정 모델의 저엔트로피 경로에서 발생하는 이상 현상에 대한 분석이 더 필요하며, 값(value) 양자화 정책의 추가적인 개선 가능성이 존재한다.

---

[PDF 보기](https://arxiv.org/pdf/2605.03562)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
