MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection
Created by
Haebom
Category
Empty
저자
Hui Lu, Yi Yu, Shijian Lu, Deepu Rajan, Boon Poh Ng, Alex C. Kot, Xudong Jiang
개요
본 논문은 비디오 내에서 동작의 시작과 종료 프레임을 식별하고 위치를 파악하는 Temporal Action Detection(TAD)을 위한 새로운 모델인 MambaTAD를 제안합니다. MambaTAD는 긴 범위의 모델링 능력과 선형 계산 복잡성을 가진 Mamba와 같은 구조적 상태 공간 모델을 기반으로 합니다. DMBSS 모듈과 전역 특징 융합 헤드를 도입하여 긴 범위의 동작 인스턴스를 효과적으로 감지하고, 종단간(end-to-end) 방식으로 동작 감지를 수행하여 네트워크 매개변수와 계산 비용을 줄입니다.
시사점, 한계점
•
시사점:
◦
MambaTAD는 긴 범위 모델링 및 전역 특징 감지 능력을 통해 정확한 TAD 성능을 달성합니다.
◦
DMBSS 모듈은 전역 특징 융합과 시간적 동작 감지를 효과적으로 지원합니다.
◦
전역 특징 융합 헤드는 다중 세분성 특징과 전역적 인식을 통해 감지를 점진적으로 개선합니다.
◦
SSTA를 사용하여 종단간 방식의 TAD를 수행하여 효율성을 높입니다.
◦
다수의 공개 벤치마크에서 일관되게 우수한 TAD 성능을 보입니다.
•
한계점:
◦
논문에 구체적인 한계점이 명시되어 있지 않음. (제안된 모델의 성능, 복잡성, 특정 데이터셋에서의 일반화 능력 등에 대한 추가 분석 필요)