Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ButterflyQuant: Ultra-low-bit LLM Quantization through Learnable Orthogonal Butterfly Transforms

Created by
  • Haebom

저자

Bingxin Xu, Zhen Dong, Oussama Elachqar, Yuzhang Shang

개요

본 논문은 소비자 하드웨어 상에서의 배포를 제한하는 거대한 메모리 공간을 필요로 하는 대규모 언어 모델의 문제를 해결하기 위해, 2-bit 양자화에서 활성화 값의 이상치로 인한 성능 저하 문제를 해결하는 새로운 양자화 기법인 ButterflyQuant를 제안합니다. 기존의 회전 기반 방법(QuIP, QuaRot)은 고정된 Hadamard 변환을 사용하지만, 본 논문에서는 Transformer의 각 레이어마다 다른 이상치 패턴이 존재한다는 점을 발견하고, 학습 가능한 Butterfly 변환을 이용하여 레이어에 적응적인 회전을 수행하는 ButterflyQuant를 제시합니다. Butterfly 변환은 연속적인 Givens 회전 각도를 매개변수로 하여 미분 가능하며, 직교성을 보장하면서 $O(n \log n)$의 계산 복잡도와 $\frac{n \log n}{2}$개의 학습 가능한 매개변수만을 사용합니다. 또한, 양자화에 적합한 부드러운 분포를 위해 변환 후 활성화 값에 대한 균일성 정규화를 도입합니다. LLaMA-2-7B 모델에 2-bit 양자화를 적용한 실험 결과, ButterflyQuant는 QuaRot보다 훨씬 우수한 성능을 보였습니다.

시사점, 한계점

시사점:
레이어에 적응적인 회전을 통해 기존의 고정된 변환 기반 방법보다 효율적인 2-bit 양자화를 가능하게 함.
학습 가능한 Butterfly 변환을 사용하여 미분 가능하고 직교성을 보장하는 효율적인 양자화 방법 제시.
적은 수의 보정 샘플과 빠른 수렴 시간으로 실용적인 적용 가능성을 높임.
LLaMA-2-7B 실험 결과, 기존 방법보다 우수한 성능을 입증.
한계점:
ButterflyQuant의 성능 향상이 특정 모델(LLaMA-2-7B)과 2-bit 양자화에 국한될 가능성.
다른 종류의 대규모 언어 모델이나 양자화 비트 수에 대한 일반화 성능 검증 필요.
균일성 정규화의 효과에 대한 추가적인 분석이 필요할 수 있음.
극단적인 저비트 양자화에 대한 일반화 성능에 대한 추가 연구 필요.
👍