Quantitative Analysis of Performance Drop in DeepSeek Model Quantization
Created by
Haebom
저자
Enbo Zhao, Yi Shen, Shuming Shi, Jieyun Huang, Zhihao Chen, Ning Wang, Siqi Xiao, Jian Zhang, Kai Wang, Shiguo Lian
개요
본 논문은 DeepSeek-R1 및 V3 모델의 로컬 배포에 대한 높은 수요와, 이를 위한 낮은 비트 수의 양자화 기법의 성능 평가에 초점을 맞추고 있습니다. 기존의 671B FP8 파라미터 크기로 인해 단일 머신 배포가 어려운 문제를 해결하기 위해, 다양한 비트 너비의 양자화 기법을 실험적으로 평가했습니다. 그 결과, 4-bit 양자화가 FP8 대비 성능 저하가 거의 없으면서 단일 머신 배포를 가능하게 함을 확인했습니다. 또한, 기존 Q3_K_M 방식보다 성능이 뛰어나고 4-bit 양자화(Q4_K_M)와 유사한 성능을 보이는 새로운 동적 3-bit 양자화 기법인 DQ3_K_M을 제안하고, NVIDIA H100/A100 및 Huawei 910B에서의 단일 머신 배포를 지원함을 보였습니다. 개선된 3-bit 양자화 모델들은 공개 저장소 (https://github.com/UnicomAI/DeepSeek-Eval) 에서 제공됩니다.