SpikeVideoFormer는 기존 SNN 기반 Transformer의 단점을 극복하여 비디오 기반 시각 작업에 효율적인 스파이크 기반 비디오 Transformer를 제시합니다. 선형 시간 복잡도 O(T)를 갖는 스파이크 기반 해밍 어텐션(SDHA)을 설계하여 실수 기반 어텐션을 스파이크 기반 어텐션으로 이론적으로 안내된 적응을 제공합니다. 다양한 스파이크 기반 시공간 어텐션 설계를 분석하여 비디오 작업에 우수한 성능을 제공하면서 선형 시간 복잡도를 유지하는 최적의 방식을 찾았습니다. 분류, 자세 추적, 의미론적 분할 등 다양한 비디오 작업에서 모델의 일반화 능력과 효율성을 입증하였으며, 기존 SNN 방식보다 15% 이상 향상된 성능을 보였고, 최신 ANN 기반 방식과 비슷한 성능을 달성하면서 16배, 10배, 5배의 효율성 향상을 이루었습니다.