본 논문은 대규모 언어 모델(LLM)의 매개변수 수가 많아 배포에 어려움이 있다는 점을 지적하며, 자원 제약이 있는 장치에서의 배포를 가능하게 하기 위해 저비트 가중치 양자화를 제안합니다. 특히, 기울기 정보를 활용하여 이상치를 식별하고 최소한의 보정 데이터만으로도 효과적인 양자화를 달성하는 Gradient-Aware Weight Quantization (GWQ) 방법을 제시합니다. GWQ는 상위 1%의 이상치는 FP16 정밀도로 유지하고 나머지는 저비트로 저장하여 성능 저하를 최소화합니다. 다양한 과제(언어 모델링, 객체 탐지, 다중 작업 언어 이해, 시각-언어 질문 답변 등)에 대한 실험 결과, GWQ는 기존 양자화 방법보다 우수한 성능을 보이며, 추론 속도를 1.2배 향상시키고 메모리 사용량을 효과적으로 줄이는 것을 확인했습니다.