본 논문은 지속적이고 긴 맥락의 입력을 로컬 장치에서 처리할 수 있는 머신 인텔리전스에 대한 수요 증가에 따라, 기존 Transformer 아키텍처의 제한점을 극복하기 위한 연구를 제시합니다. 기존 Transformer의 이차적 복잡성과 메모리 요구사항으로 인해 효율성이 떨어지고 실제 사용이 어려운 점을 해결하고자, 선형적 확장성을 제공하는 State Space Models (SSMs) 및 하이브리드 모델을 중심으로 연구가 진행되고 있습니다. 본 논문에서는 실제 소비자용 및 임베디드 GPU에서의 긴 맥락 추론을 위한 Transformer, SSM, 하이브리드 모델들의 포괄적인 비교 벤치마킹을 수행하여, SSM이 긴 맥락 처리에 더 적합하며, 소비자용 GPU에서 최대 220K 토큰까지 처리 가능함을 보여줍니다. 특히, 긴 맥락에서는 SSM이 Transformer보다 최대 4배 빠른 속도를 보이는 것을 확인하였으며, 하드웨어 인식 SSM 커널이 추론 실행 시간의 55% 이상을 차지함을 밝혀 향후 하드웨어 가속화를 위한 주요 목표임을 제시합니다. 또한, 에지 시스템 공동 설계를 위한 자세한 장치별 특성 분석 결과를 제공하고, 연구를 더욱 발전시키기 위해 벤치마킹 프레임워크를 오픈소스로 공개할 예정입니다.