본 논문은 대규모 언어 모델(LLM)의 추론 효율 향상을 위한 연구로, 저비트 수준에서의 효율적인 Post-training Quantization (PTQ)의 어려움을 해결하기 위해 Weight-Decomposed Low-Rank Quantization-Aware Training (DL-QAT) 기법을 제안합니다. DL-QAT는 전체 파라미터의 1% 미만만 훈련하면서 QAT의 장점을 결합합니다. 그룹별 양자화 크기를 도입하여 각 그룹의 전체 스케일을 조정하고, LoRA 행렬을 사용하여 양자화 공간에서 가중치 크기와 방향을 업데이트합니다. LLaMA와 LLaMA2 모델에서 실험한 결과, 다양한 양자화 세분성에서 기존 방법보다 성능이 크게 향상되었으며, 특히 3-bit LLaMA-7B 모델에서 MMLU 평가 기준으로 기존 최고 성능보다 4.2% 향상된 결과를 보였습니다. 사전 훈련된 모델에 대한 양자화 결과 또한 기존 QAT 방법을 능가하는 것으로 나타났습니다.