본 논문은 128K 토큰을 초과하는 컨텍스트 윈도우를 지원하는 대규모 언어 모델(LLM)의 양자화에 대한 최초의 체계적인 평가를 제시합니다. 9.7K개의 테스트 예시, 5가지 양자화 방법(FP8, GPTQ-int8, AWQ-int4, GPTQ-int4, BNB-nf4), 그리고 5가지 모델(Llama-3.1 8B 및 70B; Qwen-2.5 7B, 32B 및 72B)을 사용하여 긴 입력(>64K 토큰)과 긴 형식의 출력을 포함하는 작업에 대한 평가를 수행했습니다. 8비트 양자화는 정확도를 거의 유지하지만(약 0.8% 감소), 4비트 양자화는 특히 긴 컨텍스트 입력을 포함하는 작업에서 상당한 성능 저하를 초래합니다(최대 59% 감소). 이러한 성능 저하는 영어 이외의 언어로 입력이 주어질 때 더욱 악화되는 경향이 있습니다. 양자화의 영향은 양자화 방법, 모델 및 작업에 따라 크게 달라집니다.