Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dual Branch VideoMamba with Gated Class Token Fusion for Violence Detection

Created by
  • Haebom

저자

Damith Chamalke Senadeera, Xiaoyun Yang, Shibo Li, Muhammad Awais, Dimitrios Kollias, Gregory Slabaugh

개요

감시 카메라의 급증으로 자동 폭력 감지의 수요가 증가함에 따라, 공간-시간적 특징 추출에 어려움을 겪는 CNN 및 Transformer의 한계를 극복하기 위해 제안된 모델입니다. 본 논문에서는 듀얼 브랜치 디자인과 SSM (State-Space Model) 백본을 결합한 GCTF (Gated Class Token Fusion)를 사용한 Dual Branch VideoMamba를 제안합니다. 이 모델은 공간 특징을 포착하는 브랜치와 시간적 동역학에 집중하는 브랜치 간의 게이팅 메커니즘을 통해 융합을 수행하여 어려운 감시 시나리오에서도 폭력 행위를 감지하는 능력을 향상시킵니다. 또한, RWF-2000, RLVS, SURV, VioPeru 데이터 세트를 병합하여 새로운 벤치마크를 제시하고, DVD 데이터 세트에서도 SOTA 성능을 달성하여 정확도와 계산 효율성 사이에서 균형을 이룹니다.

시사점, 한계점

시사점:
듀얼 브랜치 VideoMamba-GCTF 모델은 공간 및 시간적 특징을 효과적으로 결합하여 폭력 감지 정확도를 향상시킴.
SSM (State-Space Model)의 사용을 통해 계산 효율성을 개선하여 실시간 처리에 근접.
새로운 벤치마크 데이터 세트 (RWF-2000, RLVS, SURV, VioPeru 병합) 및 DVD 데이터 세트에서 SOTA 달성.
한계점:
논문에서 구체적인 한계점은 명시되지 않음.
👍