본 논문은 효율적인 RGB-이벤트 객체 추적 프레임워크인 Mamba-FETrack V2를 제안합니다. 기존의 다중 모달 추적 알고리즘이 고 복잡도의 비전 트랜스포머 아키텍처에 의존하여 계산 비용이 높고, 모달 간 상호 작용의 효율성이 낮다는 점을 해결하기 위해, 선형 복잡도의 Vision Mamba 네트워크를 기반으로 설계되었습니다. 경량 프롬프트 생성기를 이용하여 각 모달의 임베디드 특징과 공유 프롬프트 풀을 통해 모달 특이적 학습 가능한 프롬프트 벡터를 동적으로 생성하고, 이를 Vision Mamba 기반 FEMamba 백본에 입력하여 프롬프트 기반 특징 추출, 모달 간 상호 작용 및 융합을 통합적으로 수행합니다. 최종적으로 융합된 표현은 추적 헤드에 전달되어 정확한 목표물 위치를 파악합니다. COESOT, FE108, FELT V2 등 여러 RGB-이벤트 추적 벤치마크에서 우수한 성능과 효율성을 입증하였으며, 소스 코드와 사전 훈련된 모델을 공개할 예정입니다.