Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis
Created by
Haebom
Category
Empty
저자
Jiaqi Zhao, Ming Wang, Miao Zhang, Yuzhang Shang, Xuebo Liu, Yaowei Wang, Min Zhang, Liqiang Nie
개요
본 논문은 대규모 언어 모델(LLM)의 효율적인 압축을 위한 Post-training Quantization (PTQ) 기법의 다양한 전략에 대한 종합적인 벤치마크를 제시합니다. 기존 연구들이 각 PTQ 전략의 장단점 및 적용 가능한 시나리오에 대한 심층 분석이 부족하고, 성능에만 초점을 맞춰 모델 크기, 성능, 양자화 비트 너비 간의 상호작용을 간과한 점을 개선하기 위해, 다양한 모델 크기(7B-70B), 비트 너비, 훈련 수준(LLaMA1/2/3/3.1), 아키텍처(Mixtral, DeepSeekMoE, Mamba), 모달리티(LLaVA1.5, VILA1.5)를 포함하는 광범위한 실험을 수행합니다. 계산 전략(최적화 기반, 보상 기반 등)에 따른 PTQ 방법들의 포괄적인 분류 체계를 제안하고, 실험 결과를 비교 분석하여 각 PTQ 전략의 우수성과 모델 크기-비트 너비 간의 성능 고려 상호 작용을 요약합니다. 특히, 보상 기반 기법의 우수한 크로스-아키텍처 강건성과 초대형 모델의 매우 낮은 비트 PTQ에 대한 재검토 필요성을 제시하며, 보상 기반 기법과 다른 PTQ 전략의 실용적인 조합을 통해 최첨단의 다양한 강건성을 달성할 수 있음을 주장합니다. 제시된 벤치마크는 LLM 배포 및 PTQ 접근 방식에 대한 향후 연구에 귀중한 지침을 제공할 것으로 기대하며, https://github.com/zjq0455/PTQ_Benchmark 에서 벤치마크 저장소를 제공합니다.