본 논문은 대규모 언어 모델(LLM)의 효율적인 양자화를 위한 새로운 방법을 제시합니다. LLM의 크기가 크다는 점을 감안하여 메모리 사용량과 추론 시간을 줄이기 위해 Hadamard 행렬을 기반으로 한 양자화 기법을 제안합니다. Hadamard 행렬은 활성화 값의 이상치를 줄이는 데 효과적이며, 이를 통해 기존 방법들보다 성능이 향상된 3-bit 양자화를 가능하게 합니다. 특히, 가중치, 활성화 값, 그리고 key-value(KV) 캐시에 모두 3-bit 양자화를 적용하여 Mistral, LLaMA, Qwen과 같은 다양한 모델에서 기존 최고 성능(SoTA) 방법 대비 40% 향상된 정확도를 달성했습니다. 또한, Paley 알고리즘을 이용하여 2의 거듭제곱이 아닌 임베딩 차원도 지원하도록 확장했습니다.