본 연구는 증강 현실(AR)과 같은 응용 분야에서 요구되는 긴 문맥(long context) 처리에 대한 Transformer, 상태 공간 모델(SSM), 그리고 하이브리드 모델의 성능을 비교 분석합니다. 특히 소비자용 및 임베디드 GPU 환경에서 긴 문맥 추론 시의 계산 성능과 하드웨어 자원 요구 사항을 중점적으로 탐구하며, SSM이 긴 문맥 처리에서 Transformer 대비 뛰어난 성능을 보여줌을 입증합니다.
🔑 시사점 및 한계
•
SSM은 소비자용 및 임베디드 GPU에서 긴 문맥 추론에 매우 적합하며, 매우 긴 문맥(약 57K 토큰)에서는 Transformer보다 최대 4배 빠른 성능을 보입니다.
•
SSM은 선형적인 계산 복잡성과 약 64% 감소된 메모리 사용량 덕분에 긴 문맥을 효율적으로 처리할 수 있습니다.
•
SSM의 순차적이고 요소별 연산 특성을 가진 커스텀 커널(예: selective scan)은 엣지 플랫폼에서 추론 시간의 55% 이상을 차지하며, 이는 하드웨어 최적화의 중요한 고려 사항이 될 수 있습니다.
•
본 연구는 특정 하드웨어 및 데이터셋에 대한 벤치마킹 결과이므로, 다른 하드웨어 환경이나 다양한 유형의 긴 문맥 데이터에 대한 추가적인 연구가 필요할 수 있습니다.