본 논문은 1B에서 405B 파라미터에 이르는 instruction-tuned 언어 모델들을 대상으로 4가지 양자화 기법(FP8, GPTQ, AWQ 등)을 적용하여 13개 데이터셋에서 종합적인 평가를 수행했습니다. 기존 연구들이 perplexity나 기본적인 지식 과제에 국한된 것과 달리, Llama-3.3과 같은 최신 모델들을 포함하여 instruction-following 및 환각 감지와 같은 다양한 측면을 평가했습니다. 실험 결과, 양자화된 모델들은 일반적으로 더 작은 FP16 기반 모델보다 성능이 우수하지만, instruction-following 및 환각 감지에서 어려움을 겪는 경향이 있음을 보였습니다. FP8이 대부분의 과제에서 가장 견고한 옵션으로 나타났으며, 가중치만 양자화하는 경우 AWQ가 GPTQ보다 성능이 우수했습니다. 또한, 작은 모델은 4-bit 양자화에서 정확도가 크게 저하될 수 있지만, 70B 규모의 모델은 안정적인 성능을 유지했습니다. 흥미롭게도 어려운 과제가 항상 정확도 손실이 가장 큰 것은 아니었는데, 이는 양자화가 과제의 난이도와 단순히 상관관계를 갖는 것이 아니라 모델의 고유한 약점을 증폭시킨다는 것을 시사합니다. 마지막으로, LLM 기반 평가 도구인 MT-Bench를 사용한 결과, 코딩 및 STEM 과제에서 성능 저하가 상당하지만, 추론 과제에서는 때때로 성능 향상을 보이는 것으로 나타났습니다.