RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm
Created by
Haebom
저자
Yongyi Yang, Jianyang Gao, Wei Hu
개요
본 논문은 대규모 언어 모델(LLM)의 추론 효율을 향상시키는 데 널리 사용되는 기법인 학습 후 양자화(PTQ)의 한계를 극복하는 새로운 프레임워크인 RaanA를 제안합니다. 기존 PTQ 방법들은 많은 보정 데이터와 고정적인 비트 수 선택이라는 한계를 가지고 있지만, RaanA는 빠르고 정확하며 효율적인 양자화를 위한 RaBitQ-H와 계층별 양자화 민감도에 기반한 최적 비트 할당을 수행하는 AllocateBits 알고리즘을 도입하여 이러한 문제를 해결합니다. RaanA는 최첨단 양자화 방법들과 경쟁적인 성능을 달성하면서 매우 빠르고, 최소한의 보정 데이터만 필요하며, 유연한 비트 할당을 가능하게 합니다. 광범위한 실험을 통해 RaanA의 효율성과 정확성 간의 균형을 보여줍니다. 소스 코드는 https://github.com/FFTYYY/RaanA 에서 공개적으로 이용 가능합니다.