Sign In

All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment

Created by
  • Haebom
Category
Empty

저자

Chunhui Zhang, Xin Sun, Yiqian Yang, Li Liu, Qiong Liu, Xi Zhou, Yanfeng Wang

개요

본 논문은 기존의 비전-언어(VL) 추적 프레임워크가 시각적 특징 추출기, 언어적 특징 추출기, 그리고 융합 모델의 세 부분으로 나뉘어져 효율성이 떨어지고 복잡한 상황(예: 유사한 방해물, 극단적인 조명)에서 목표물 인식 능력이 제한적이라는 점을 지적한다. 이를 해결하기 위해, 본 논문에서는 자연어와 컴퓨터 비전 작업 모두에 통합된 아키텍처를 가진 기초 모델의 성공에 착안하여, 통합된 트랜스포머 백본을 채택하여 공동 특징 추출 및 상호 작용을 학습하는 올인원(All-in-One) 프레임워크를 제안한다. 원시 비전 및 언어 신호를 혼합하여 언어 주입 비전 토큰을 생성하고, 통합 백본 아키텍처에 입력하기 전에 이를 연결하여 특징 통합을 수행한다. 또한, 학습 효율을 높이기 위해 교차 모드 및 모드 내 대조 목표를 기반으로 하는 다중 모드 정렬 모듈을 도입하여 통합된 올인원 트랜스포머 백본에 대해 더욱 합리적인 표현을 제공한다. OTB99-L, TNL2K, LaSOT, LaSOT<sub>Ext</sub>, WebUAV-3M 등 5개의 벤치마크에 대한 광범위한 실험을 통해 기존 최첨단 VL 추적 기술보다 제안된 추적기의 우수성을 입증한다.

시사점, 한계점

시사점:
기존 VL 추적 프레임워크의 한계점을 극복하는 효율적이고 효과적인 올인원(All-in-One) 프레임워크 제시.
통합된 트랜스포머 백본을 통해 특징 추출과 통합을 동시에 수행하여 성능 향상.
다중 모드 정렬 모듈을 통해 학습 효율 개선.
다양한 벤치마크에서 기존 최첨단 기술 대비 우수한 성능 입증.
공개된 코드를 통해 재현성 확보.
한계점:
제안된 모델의 계산 복잡도 및 메모리 사용량에 대한 자세한 분석 부족.
다양한 유형의 방해물 및 복잡한 환경에 대한 로버스트성에 대한 추가적인 실험 필요.
특정 데이터셋에 대한 과적합 가능성.
👍