Sign In

Tell Me What to Track: Infusing Robust Language Guidance for Enhanced Referring Multi-Object Tracking

Created by
  • Haebom
Category
Empty

저자

Wenjun Huang, Yang Ni, Hanning Chen, Yirui He, Ian Bryant, Yezi Liu, Mohsen Imani

개요

본 논문은 언어 표현을 기반으로 임의의 수의 대상을 위치 파악하고 비디오에서 지속적으로 추적하는 신흥 교차 모드 작업인 참조 다중 객체 추적(RMOT)을 다룹니다. 이 복잡한 작업에는 다중 모드 데이터에 대한 추론과 시간적 연관성을 갖춘 정확한 대상 위치 파악이 포함됩니다. 기존 연구는 작업의 특성상 신생 대상과 기존 대상 간의 불균형 데이터 분포를 간과하고, 다중 모드 특징을 간접적으로만 융합하여 신생 대상 탐지에 대한 명확한 지침을 제공하는 데 어려움을 겪었습니다. 본 논문은 이러한 문제를 해결하기 위해 공동 매칭 전략을 통해 불균형의 영향을 완화하고, 추적 성능을 유지하면서 신생 대상 탐지 능력을 향상시킵니다. 인코더에서는 교차 모드 및 다중 스케일 융합을 통합 및 향상시켜, 제한된 다중 모드 정보가 특징 맵 간에 공유 및 상호 작용되는 기존 연구의 병목 현상을 극복합니다. 디코더에서는 쿼리 토큰을 통해 명시적인 참조 지침을 제공하는 참조 주입 적응 방식을 개발했습니다. 실험 결과, 기존 연구와 비교하여 모델 성능이 +3.42% 향상되어 설계의 효과를 보여줍니다.

시사점, 한계점

시사점:
신생 대상과 기존 대상 간의 불균형 데이터 분포 문제를 해결하는 공동 매칭 전략 제시.
다중 모드 및 다중 스케일 특징 융합을 개선하여 신생 대상 탐지 성능 향상.
쿼리 토큰을 통한 명시적인 참조 지침 제공으로 추적 성능 향상.
기존 연구 대비 3.42% 향상된 성능으로 모델의 효과성 입증.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 검증 필요.
다양한 유형의 비디오 데이터 및 언어 표현에 대한 로버스트성 평가 필요.
실제 응용 환경에서의 성능 평가 및 한계점 분석 필요.
👍