본 논문은 대규모 언어 모델(LLM)의 자원 제약 환경에서의 배포를 위한 저비트 가중치 양자화 방법인 Gradient-Aware Weight Quantization (GWQ)을 제안합니다. GWQ는 기울기를 활용하여 이상치를 찾아내어 최소한의 보정 데이터만으로도 효과적인 양자화를 수행합니다. 상위 1%의 이상치는 FP16 정밀도로 유지하고 나머지는 저비트로 저장하여 성능 저하를 최소화합니다. 다양한 과제(언어 모델링, 객체 탐지, 다중 작업 언어 이해, 비전-언어 질의응답 등)에서 기존 양자화 방법보다 우수한 성능을 보이며, 추론 속도 향상(1.2배) 및 메모리 감소 효과를 달성합니다.