Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models
Created by
Haebom
저자
Ruikang Liu, Yuxuan Sun, Manyi Zhang, Haoli Bai, Xianzhi Yu, Tiezheng Yu, Chun Yuan, Lu Hou
개요
본 논문은 추론 언어 모델의 추론 비용을 줄이기 위한 양자화의 효과를 체계적으로 연구한 첫 번째 연구입니다. 1.5B에서 70B 파라미터 규모의 DeepSeek-R1-Distilled Qwen, LLaMA 계열과 QwQ-32B 모델을 대상으로 가중치, KV 캐시, 활성화 함수 양자화를 다양한 비트 너비로 실험했습니다. 수학(AIME, MATH-500), 과학(GPQA), 프로그래밍(LiveCodeBench) 추론 벤치마크를 사용하여 평가한 결과, W8A8 또는 W4A16 양자화를 통해 손실 없는 양자화를 달성할 수 있지만, 더 낮은 비트 너비는 정확도에 심각한 영향을 미친다는 것을 발견했습니다. 모델 크기, 모델 출처, 작업 난이도가 성능에 중요한 영향을 미치는 요소임을 밝혔으며, 예상과 달리 양자화된 모델의 출력 길이가 증가하지 않는다는 점도 확인했습니다. 모델 크기 또는 추론 단계를 전략적으로 조정하면 성능을 향상시킬 수 있습니다. 모든 양자화된 모델과 코드는 https://github.com/ruikangliu/Quantized-Reasoning-Models 에서 공개될 예정입니다.