Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking

Created by
  • Haebom

저자

Shiao Wang, Ju Huang, Qingchuan Ma, Jinfeng Gao, Chunyi Xu, Xiao Wang, Lan Chen, Bo Jiang

개요

본 논문은 효율적인 RGB-이벤트 객체 추적 프레임워크인 Mamba-FETrack V2를 제안합니다. 기존의 다중 모달 추적 알고리즘이 고 복잡도의 비전 트랜스포머 아키텍처에 의존하여 계산 비용이 높고, 모달 간 상호 작용의 효율성이 낮다는 점을 해결하기 위해, 선형 복잡도의 Vision Mamba 네트워크를 기반으로 설계되었습니다. 경량 프롬프트 생성기를 이용하여 각 모달의 임베디드 특징과 공유 프롬프트 풀을 통해 모달 특이적 학습 가능한 프롬프트 벡터를 동적으로 생성하고, 이를 Vision Mamba 기반 FEMamba 백본에 입력하여 프롬프트 기반 특징 추출, 모달 간 상호 작용 및 융합을 통합적으로 수행합니다. 최종적으로 융합된 표현은 추적 헤드에 전달되어 정확한 목표물 위치를 파악합니다. COESOT, FE108, FELT V2 등 여러 RGB-이벤트 추적 벤치마크에서 우수한 성능과 효율성을 입증하였으며, 소스 코드와 사전 훈련된 모델을 공개할 예정입니다.

시사점, 한계점

시사점:
고효율의 RGB-이벤트 객체 추적 프레임워크를 제시하여 계산 비용을 낮추고 추적 성능을 향상시켰습니다.
경량 프롬프트 생성기와 Vision Mamba 네트워크를 활용하여 모달 간 상호 작용을 효과적으로 수행했습니다.
다양한 벤치마크 데이터셋에서 우수한 성능을 검증했습니다.
소스 코드 공개를 통해 연구의 재현성과 확장성을 높였습니다.
한계점:
제안된 프레임워크의 일반화 성능에 대한 추가적인 검증이 필요합니다.
다양한 환경 및 조건에서의 성능 평가가 더 필요합니다.
프롬프트 생성기의 설계 및 매개변수 최적화에 대한 자세한 분석이 부족합니다.
👍