본 논문은 장기 시퀀스 애플리케이션을 위한 효율적인 대안으로 떠오르고 있는 상태 공간 모델(SSMs)을 상용 NPU(Neural Processing Unit)에서 최적화하는 최초의 프레임워크인 XAMBA를 제안한다. XAMBA는 SSM을 NPU에서 실행 가능하게 하고(1), 성능을 최적화하며(2), 정확도와 성능 간의 트레이드오프를 통해 추가적인 성능 향상을 달성하는(3) 세 단계의 방법론을 따른다. 특히, CumBA와 ReduBA를 통해 순차적인 CumSum 및 ReduceSum 연산을 행렬 기반 연산으로 대체하여 속도와 메모리 효율을 크게 향상시키고, ActiBA를 통해 비용이 많이 드는 활성화 함수를 근사하여 지연 시간을 줄인다. Intel Core Ultra Series 2 AI PC에서의 평가 결과, XAMBA는 기준선 대비 최대 4.8배의 속도 향상을 달성했다.