[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MambaQuant: Quantizing the Mamba Family with Variance Aligned Rotation Methods

Created by
  • Haebom

저자

Zukang Xu, Yuxuan Yue, Xing Hu, Zhihang Yuan, Zixu Jiang, Zhixuan Chen, Jiangyong Yu, Chen Xu, Sifan Zhou, Dawei Yang

개요

Mamba는 Transformer에 필적하는 효율적인 시퀀스 모델로 다양한 작업의 기본 아키텍처로서 상당한 잠재력을 보여줍니다. 기존의 CNN 및 Transformer 모델에 효과적이었던 양자화 방법들은 Mamba 모델에는 적합하지 않아 (예: Quarot은 Vim-T$^\dagger$에서 21%의 정확도 저하를 보임) Mamba 모델의 양자화는 아직 충분히 연구되지 않았습니다. 본 논문에서는 게이트 투영, 출력 투영, 행렬 곱셈에서 상당한 이상치가 존재하고, Mamba의 고유한 병렬 스캔이 이러한 이상치를 증폭시켜 불균일하고 무거운 꼬리를 가진 데이터 분포를 야기하며, Hadamard 변환을 적용하더라도 가중치와 활성화의 채널 간 분산이 여전히 불일치하는 등의 문제점을 밝히고, 이를 해결하기 위해 KLT 기반 회전과 Smooth-Fused 회전을 포함하는 사후 훈련 양자화(PTQ) 프레임워크인 MambaQuant를 제안합니다. MambaQuant는 가중치와 활성화를 8비트로 양자화하여 Mamba 기반 비전 및 언어 작업에서 1% 미만의 정확도 손실을 달성합니다.

시사점, 한계점

시사점:
Mamba 모델에 대한 최초의 포괄적인 사후 훈련 양자화(PTQ) 프레임워크인 MambaQuant 제시.
Mamba 기반 비전 및 언어 작업에서 8비트 양자화를 통해 1% 미만의 정확도 손실 달성.
KLT 기반 회전과 Smooth-Fused 회전을 통한 효과적인 채널 분포 조정 및 분산 균일화.
Mamba 모델의 효율성 향상 및 실제 적용 가능성 확대.
한계점:
MambaQuant는 사후 훈련 양자화(PTQ)에 초점을 맞추고 있어, 훈련 과정 자체에 양자화를 통합하는 연구는 추가적으로 필요.
현재 Vim-T$^\dagger$ 등 특정 작업에 대한 성능만 평가되었으므로, 다른 작업 또는 다양한 Mamba 모델 아키텍처에 대한 일반화 가능성은 추가 연구가 필요.
제안된 방법의 효율성은 특정 하드웨어 플랫폼에 따라 달라질 수 있음.
👍