SmoothRot: Combining Channel-Wise Scaling and Rotation for Quantization-Friendly LLMs
Created by
Haebom
저자
Patrik Czako, Gabor Kertesz, Sandor Szenasi
개요
본 논문은 대규모 언어 모델(LLM)에서 4비트 양자화의 효율성을 높이기 위한 새로운 사후 훈련 양자화 기법인 SmoothRot을 제시합니다. SmoothRot은 채널별 스케일링과 Hadamard 변환을 통합하여 활성화 값의 과도한 이상치 문제를 해결합니다. 이 기법은 극단적인 이상치를 양자화에 적합한 활성화 값으로 변환하여 양자화 정확도를 크게 향상시킵니다. LLaMA2 7B, LLaMA3.1 8B, Mistral 7B와 같은 인기 있는 LLM에 대한 실험 결과, SmoothRot은 언어 생성 및 제로샷 추론 작업에서 양자화된 모델과 FP16 모델 간의 성능 차이를 약 10~30%까지 일관되게 줄이며, 추론 지연 시간을 추가로 증가시키지 않는다는 것을 보여줍니다. 코드는 https://github.com/czakop/smoothrot 에서 확인할 수 있습니다.