Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models

Created by
  • Haebom

저자

Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu

Quamba2: Efficient Quantization for State Space Models

개요

Quamba2는 State Space Models (SSMs)의 효율적인 양자화를 위한 프레임워크입니다. Mamba1 및 Mamba2 백본 모두에서 W8A8, W4A8, W4A16 등의 다양한 비트폭 설정을 지원하여 클라우드 서비스 및 제한된 리소스 장치에서의 SSM 배포를 용이하게 합니다. 입력 x의 정렬 및 클러스터링을 통한 오프라인 8비트 양자화, 입력 종속 매개변수 B 및 C에 대한 상태 그룹별 양자화, 그리고 컴퓨팅 불변성을 위한 가중치 재배열 방식을 제안합니다. Quamba2-8B는 기존 방법론보다 성능이 뛰어나며, 속도 향상과 메모리 감소 효과를 보입니다.

시사점, 한계점

다양한 비트폭 설정을 지원하여 다양한 플랫폼에 적합합니다. (W8A8, W4A8, W4A16)
Mamba1 및 Mamba2 백본 모두에서 작동합니다.
오프라인 양자화 방식을 통해 효율성을 높입니다.
속도 향상 (1.3배 및 3배) 및 메모리 감소 (4배) 효과를 보입니다.
MMLU 벤치마크를 통해 일반화 가능성과 견고성을 입증했습니다.
평균 정확도 손실은 1.6%로, 성능 저하가 크지 않습니다.
오직 Mamba 모델만을 대상으로 한다는 한계가 있습니다.
구체적인 하드웨어 가속에 대한 언급은 부족합니다.
👍