본 논문은 대규모 언어 모델(LLM)의 효율적인 배포를 위한 중요한 기술인 학습 후 양자화(PTQ)에 대해 제안된 새로운 방식인 NestQuant를 소개합니다. NestQuant는 자기 유사 중첩 격자(self-similar nested lattices)를 기반으로 가중치와 활성화 함수를 양자화하는 PTQ 기법입니다. 최근 연구에서 이러한 양자화기가 저정밀 행렬 곱셈에 대해 정보 이론적으로 최적임이 수학적으로 증명되었습니다. Gosset 격자를 기반으로 한 실용적이고 저 복잡도의 NestQuant 버전을 구현하여, 모든 행렬 곱셈 단계(예: 자기 주의, MLP 등)에 바로 적용 가능한 양자화기로 만들었습니다. 예를 들어, Llama-3-8B의 가중치, KV 캐시 및 활성화 함수를 4비트로 양자화하여 wikitext2에서 6.6의 perplexity를 달성했습니다. 이는 비양자화 모델(perplexity 6.14)과 비교하여 perplexity 차이를 55% 이상 줄인 것으로, 최첨단 Metas SpinQuant(perplexity 7.3), OstQuant(7.3) 및 QuaRot(8.2)보다 우수한 성능을 보입니다. 더 큰 모델(최대 70B)과 다양한 LLM 평가 벤치마크에 대한 비교 결과에서도 NestQuant의 일관된 우수성을 확인했습니다.