본 논문은 1B에서 405B 파라미터에 이르는 instruction-tuned 모델들을 대상으로, 4가지 양자화 기법(FP8, GPTQ, AWQ 등)을 13개 데이터셋에 적용하여 포괄적인 평가를 수행했습니다. Llama-3.3과 같은 최신 모델들을 포함하여 perplexity나 기본 지식 과제를 넘어선 다양한 과제에서 양자화의 효과를 분석했습니다. 실험 결과, 양자화된 모델은 작은 FP16 기준 모델보다 성능이 우수한 경우가 많지만, 지시사항 따르기와 환각 검출에는 어려움을 겪는 것으로 나타났습니다. 특히 FP8이 가장 견고한 옵션으로 밝혀졌으며, 가중치만 양자화하는 경우 AWQ가 GPTQ보다 성능이 우수했습니다. 또한, 작은 모델은 4-bit 양자화에서 정확도가 크게 저하될 수 있지만, 70B 규모의 모델은 안정적인 성능을 유지했습니다. 흥미롭게도 어려운 과제라고 해서 항상 정확도 저하가 가장 크지는 않았는데, 이는 양자화가 과제의 난이도와 단순히 상관관계를 갖는 것이 아니라 모델의 본질적인 약점을 증폭시킨다는 것을 시사합니다. 마지막으로, LLM 기반 평가 도구인 MT-Bench를 사용한 결과, 코딩 및 STEM 과제에서 성능 저하가 크게 나타났지만, 추론 과제에서는 경우에 따라 성능 향상이 보고되기도 했습니다.