본 논문은 128K 토큰을 초과하는 컨텍스트 윈도우를 지원하는 대규모 언어 모델(LLM)의 양자화에 대한 최초의 체계적인 평가를 제시합니다. 9.7K개의 테스트 예시, 5가지 양자화 방법(FP8, GPTQ-int8, AWQ-int4, GPTQ-int4, BNB-nf4), 그리고 5개의 모델(Llama-3.1 8B 및 70B; Qwen-2.5 7B, 32B 및 72B)에 걸쳐 평가를 진행했습니다. 긴 입력(>64K 토큰)과 긴 형식의 출력을 가진 작업에서 양자화된 LLM의 성능을 평가하여, 평균적으로 8비트 양자화는 정확도를 약 0.8% 저하시키는 반면, 4비트 방법은 특히 긴 컨텍스트 입력을 포함하는 작업에서 상당한 성능 저하(최대 59%)를 초래함을 발견했습니다. 이러한 성능 저하는 입력 언어가 영어가 아닐 때 더욱 심화되는 경향이 있습니다. 양자화의 영향은 양자화 방법, 모델 및 작업에 크게 의존하며, 예를 들어 Qwen-2.5 72B는 BNB-nf4에서 강건한 반면, Llama-3.1 70B는 동일한 작업에서 32%의 성능 저하를 경험합니다.