본 논문은 매개변수 수십억 개의 대규모 언어 모델이 추론 중 메모리 및 에너지 사용량을 지배하는 많은 계층이 고유한 정보에 거의 기여하지 않는 과도한 프로비전 문제를 해결하기 위해, 계량 기반 사후 훈련 양자화 프레임워크인 LieQ를 제시합니다. LieQ는 경사도 업데이트 없이 자동 비트 너비 할당을 가능하게 하는 세 가지 보완적인 계층별 진단(Perplexity Drop, Representational Compactness, Top-k Energy Gain)을 도입하여 극단적인 저비트 압축 하에서 7B 미만 모델의 정확도를 유지하는 데 중점을 둡니다. 2~3비트 정밀도에서 심각한 정확도 저하를 겪는 기존 방법과 달리, LieQ는 Qwen3-4B에서 2.05비트 양자화 시 FP16 기준 성능의 95.9%를 회복하여 7가지 제로샷 추론 작업에서 평균적으로 GPTQ보다 19.7%, AWQ보다 18.1% 우수한 압축-정확도 절충안을 달성합니다. LLaMA3.2-3B에 적용하면 2.07비트 정밀도에서 기준 정확도의 98.2%를 유지하면서 메모리 사용량을 4배 줄여, 자원 제약이 있는 에지 장치에 소규모 언어 모델을 배포하기 위한 새로운 패러다임을 제시합니다.