BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models
Created by
Haebom
저자
Liulu He, Shenli Zheng, Karwei Sun, Yijiang Liu, Yufei Zhao, Chongkang Tan, Huanrui Yang, Yuan Du, Li Du
개요
본 논문은 대규모 언어 모델(LLM)의 양자화 파이프라인에서 회전(rotation) 기법의 효용성을 높이기 위해 제안된 BASE-Q 방법을 소개합니다. 기존 회전 기반 양자화 방법은 채널 평균 정렬 실패와 활성화 분포의 가우시안 분포화로 인한 라운딩 및 클리핑 에러 증가라는 한계를 지닙니다. BASE-Q는 바이어스 보정과 비대칭 스케일링을 결합하여 이러한 에러들을 효과적으로 줄입니다. 또한, 블록 단위 최적화를 통해 메모리 소모가 큰 전체 모델 역전파를 제거합니다. 다양한 LLM과 벤치마크 실험 결과, BASE-Q는 기존 방법들(QuaRot, SpinQuant, OSTQuant) 대비 정확도 손실을 각각 50.5%, 42.9%, 29.2%까지 줄이는 것으로 나타났습니다.
시사점, 한계점
•
시사점:
◦
기존 회전 기반 양자화 방법의 한계점(채널 평균 정렬 실패, 가우시안 분포화로 인한 에러 증가)을 명확히 제시하고, 이를 해결하는 효과적인 방법(BASE-Q)을 제안했습니다.
◦
BASE-Q는 블록 단위 최적화를 통해 메모리 효율성을 크게 향상시켰습니다.
◦
다양한 LLM과 벤치마크에서 기존 방법 대비 우수한 성능 향상을 보였습니다.
•
한계점:
◦
아직 코드가 공개되지 않았습니다.
◦
다양한 LLM과 벤치마크에서의 실험 결과가 제시되었으나, 특정 LLM이나 벤치마크에 대한 성능이 과도하게 좋거나 나쁜 경우에 대한 분석이 부족할 수 있습니다.