Mamba는 Transformer에 필적하는 효율적인 시퀀스 모델로 다양한 작업에 대한 기본 아키텍처로서 상당한 잠재력을 보여줍니다. 본 논문은 기존 양자화 기법들이 Mamba 모델에 적용하기에는 부적절하다는 점을 밝히고, Mamba 모델의 양자화에 있어 게이트 투영, 출력 투영, 행렬 곱셈에서 상당한 이상치가 존재하고, Mamba의 병렬 스캔이 이러한 이상치를 증폭시켜 불균일하고 긴 꼬리 데이터 분포를 야기하며, Hadamard 변환을 적용해도 가중치와 활성화의 채널 간 분산이 여전히 불일치한다는 점을 핵심 과제로 제시합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 다양한 채널 분포에 적응 가능한 회전 행렬을 생성하는 KLT 향상 회전과 채널 분산을 동등하게 하고 추가 매개변수를 모델 가중치에 병합할 수 있는 Smooth-Fused 회전으로 구성된 사후 훈련 양자화(PTQ) 프레임워크인 MambaQuant를 제안합니다. 실험 결과, MambaQuant는 Mamba 기반 비전 및 언어 작업에 대해 가중치와 활성화를 8비트로 양자화할 때 1% 미만의 정확도 손실을 보였습니다.
시사점, 한계점
•
시사점:
◦
Mamba 모델에 대한 최초의 포괄적인 사후 훈련 양자화(PTQ) 프레임워크인 MambaQuant를 제시.
◦
Mamba 모델의 효율성을 향상시키는 양자화 방법을 제시하여 모델 크기와 계산 지연 시간을 줄일 수 있음.
◦
8비트 양자화에서 1% 미만의 정확도 손실을 달성하여 Mamba 모델의 실제 적용 가능성을 높임.
◦
KLT 향상 회전과 Smooth-Fused 회전 기법은 다른 모델의 양자화에도 적용 가능할 수 있음.
•
한계점:
◦
현재는 Mamba 모델에 대한 양자화만 다루고 있으며, 다른 모델로의 일반화 가능성에 대한 추가 연구가 필요.
◦
MambaQuant의 성능은 특정 데이터셋과 작업에 따라 달라질 수 있음. 더 다양한 데이터셋과 작업에 대한 실험이 필요.