본 논문은 지속적이고 긴 맥락의 입력을 로컬 장치에서 처리할 수 있는 머신 인텔리전스에 대한 수요 증가에 따라, 기존 Transformer 아키텍처의 제한점을 극복하기 위해 State Space Models (SSMs) 및 하이브리드 모델의 성능을 종합적으로 비교 분석한 연구이다. 특히, 소비자 및 임베디드 GPU 상에서 장문의 컨텍스트 추론에 대한 성능을 중점적으로 평가하여 SSMs가 Transformer보다 긴 시퀀스 처리에 효율적임을 보여준다. 24GB 소비자 GPU에서 최대 220K 토큰까지 처리 가능하며, 긴 컨텍스트에서는 Transformer보다 최대 4배 빠른 속도를 보이는 것을 확인하였다. 또한, 하드웨어 인식 SSM 커널이 추론 실행 시간의 55% 이상을 차지함을 밝히고, 향후 하드웨어 가속화를 위한 주요 대상임을 제시한다. 마지막으로, 시스템 공동 설계를 위한 상세한 장치별 특성 분석 결과와 함께 성능 평가 프레임워크를 공개할 예정이다.