본 논문은 Llama-3.1 모델 계열 전체를 대상으로 FP8, INT8, INT4 양자화의 정확도-성능 절충 관계를 종합적으로 실험적으로 분석한 연구입니다. 50만 건 이상의 평가를 통해 FP8(W8A8-FP)은 모든 모델 규모에서 손실이 거의 없다는 점, 잘 조정된 INT8(W8A8-INT)은 놀랍도록 낮은(1-3%) 정확도 저하를 달성한다는 점, 그리고 INT4 가중치 전용(W4A16-INT)이 예상보다 경쟁력이 있으며 8비트 양자화에 필적한다는 점을 발견했습니다. 또한, vLLM 프레임워크를 통해 추론 성능을 분석하여 배포 환경에 따른 최적의 양자화 형식을 제시합니다. 동기식 설정에서는 W4A16이, 비동기식 연속 배치에서는 W8A8이 가장 비용 효율적이며, 혼합된 작업 부하의 경우 특정 사용 사례에 따라 최적의 선택이 달라진다는 결론을 내립니다.