감시 카메라의 급증으로 자동 폭력 감지의 수요가 증가함에 따라, 공간-시간적 특징 추출에 어려움을 겪는 CNN 및 Transformer의 한계를 극복하기 위해 제안된 모델입니다. 본 논문에서는 듀얼 브랜치 디자인과 SSM (State-Space Model) 백본을 결합한 GCTF (Gated Class Token Fusion)를 사용한 Dual Branch VideoMamba를 제안합니다. 이 모델은 공간 특징을 포착하는 브랜치와 시간적 동역학에 집중하는 브랜치 간의 게이팅 메커니즘을 통해 융합을 수행하여 어려운 감시 시나리오에서도 폭력 행위를 감지하는 능력을 향상시킵니다. 또한, RWF-2000, RLVS, SURV, VioPeru 데이터 세트를 병합하여 새로운 벤치마크를 제시하고, DVD 데이터 세트에서도 SOTA 성능을 달성하여 정확도와 계산 효율성 사이에서 균형을 이룹니다.