Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking

Created by
  • Haebom

저자

Chunhui Zhang, Li Liu, Jialin Gao, Xin Sun, Hao Wen, Xi Zhou, Shiming Ge, Yanfeng Wang

개요

본 논문은 비디오와 언어 정보를 결합한 영상 추적(VL tracking)을 위한 새로운 프레임워크 COST를 제안합니다. 기존 VL tracker들이 복잡한 다단계 다모달 융합 메커니즘에 의존하는 것과 달리, COST는 대조 학습 기반의 일단계 트랜스포머 융합 방식을 사용하여 의미적으로 일관되고 통합된 VL 표현을 학습합니다. 특히, 비디오와 해당 언어 설명 간의 상호 정보량(MI)을 극대화하는 대조적 정렬 전략을 도입하여 효과적인 교차 모달 정렬을 수행하고, 시각-언어 트랜스포머를 활용하여 효율적인 다모달 융합 및 추론 메커니즘을 구축합니다. 또한, 소형 객체 추적을 위한 새로운 VL 추적 벤치마크 데이터셋 VL-SOT500을 공개하며, 이는 언어 정보를 활용하여 소형 객체 추적 성능을 향상시키는 최초의 데이터셋입니다. 실험 결과, COST는 기존 다섯 개의 VL 추적 데이터셋과 VL-SOT500 데이터셋에서 최첨단 성능을 달성했습니다. 소스 코드와 데이터셋은 공개될 예정입니다.

시사점, 한계점

시사점:
대조 학습 기반의 일단계 트랜스포머 융합 방식을 통해 효율적이고 성능이 뛰어난 VL 추적 프레임워크를 제시.
비디오와 언어 설명 간의 상호 정보량을 극대화하는 대조적 정렬 전략으로 의미적으로 일관된 VL 표현 학습 가능.
소형 객체 추적을 위한 새로운 VL 추적 벤치마크 데이터셋 VL-SOT500을 제공.
기존 VL 추적 데이터셋 및 VL-SOT500에서 최첨단 성능 달성.
소스 코드와 데이터셋 공개를 통해 연구의 재현성과 확장성 확보.
한계점:
VL-SOT500 데이터셋의 규모가 다른 대규모 데이터셋에 비해 상대적으로 작을 수 있음.
제안된 방법의 일반화 성능에 대한 추가적인 검증 필요.
다양한 유형의 언어 설명에 대한 robustness 평가 필요.
👍