Mamba는 Transformer에 필적하는 효율적인 시퀀스 모델로 다양한 작업의 기본 아키텍처로서 상당한 잠재력을 보여줍니다. 기존의 CNN 및 Transformer 모델에 효과적이었던 양자화 방법들은 Mamba 모델에는 적합하지 않아 (예: Quarot은 Vim-T$^\dagger$에서 21%의 정확도 저하를 보임) Mamba 모델의 양자화는 아직 충분히 연구되지 않았습니다. 본 논문에서는 게이트 투영, 출력 투영, 행렬 곱셈에서 상당한 이상치가 존재하고, Mamba의 고유한 병렬 스캔이 이러한 이상치를 증폭시켜 불균일하고 무거운 꼬리를 가진 데이터 분포를 야기하며, Hadamard 변환을 적용하더라도 가중치와 활성화의 채널 간 분산이 여전히 불일치하는 등의 문제점을 밝히고, 이를 해결하기 위해 KLT 기반 회전과 Smooth-Fused 회전을 포함하는 사후 훈련 양자화(PTQ) 프레임워크인 MambaQuant를 제안합니다. MambaQuant는 가중치와 활성화를 8비트로 양자화하여 Mamba 기반 비전 및 언어 작업에서 1% 미만의 정확도 손실을 달성합니다.
시사점, 한계점
•
시사점:
◦
Mamba 모델에 대한 최초의 포괄적인 사후 훈련 양자화(PTQ) 프레임워크인 MambaQuant 제시.
◦
Mamba 기반 비전 및 언어 작업에서 8비트 양자화를 통해 1% 미만의 정확도 손실 달성.
◦
KLT 기반 회전과 Smooth-Fused 회전을 통한 효과적인 채널 분포 조정 및 분산 균일화.
◦
Mamba 모델의 효율성 향상 및 실제 적용 가능성 확대.
•
한계점:
◦
MambaQuant는 사후 훈련 양자화(PTQ)에 초점을 맞추고 있어, 훈련 과정 자체에 양자화를 통합하는 연구는 추가적으로 필요.
◦
현재 Vim-T$^\dagger$ 등 특정 작업에 대한 성능만 평가되었으므로, 다른 작업 또는 다양한 Mamba 모델 아키텍처에 대한 일반화 가능성은 추가 연구가 필요.