본 논문은 상태 공간 모델(SSM)의 확장성 문제를 해결하기 위해 저비트 양자화 기법인 Quamba2를 제안합니다. SSM은 Transformer에 비해 일관된 메모리 사용량과 높은 성능을 제공하지만, 저장 용량 및 연산 능력 요구사항으로 인해 클라우드 서비스나 자원 제약이 있는 장치에서 확장하는 데 어려움이 있습니다. Quamba2는 W8A8, W4A8, W4A16과 같은 다양한 비트 폭 구성을 지원하여 Mamba1 및 Mamba2 백본과 호환되며, 다양한 플랫폼에서 SSM 배포에 대한 요구를 충족합니다. 채널 순서 보존 및 활성화 지속성을 기반으로 오프라인 양자화 기법을 제안하며, 입력 x에 대한 정렬 및 클러스터링과 입력 의존적 매개변수 B 및 C에 대한 상태 그룹별 양자화를 결합합니다. 실험 결과, Quamba2-8B는 기존 최첨단 SSM 양자화 방법보다 우수한 성능을 보이며, 메모리 사용량을 4배 줄이고 정확도 저하를 1.6%로 제한하면서 사전 채우기 단계에서 1.3배, 생성 단계에서 3배의 속도 향상을 달성합니다. MMLU 평가를 통해 일반화 성능과 강건성을 확인했습니다.