본 논문은 다양한 참조 방식(바운딩 박스, 자연어, 둘 다)과 다양한 비디오 모달리티(RGB, RGB+Depth, RGB+Thermal, RGB+Event)를 모두 처리할 수 있는 통합 객체 추적기 UniSOT을 제안합니다. 기존 추적기의 한계를 극복하고, 여러 모달리티 조합을 지원하여 실용성을 높였습니다. 18개의 벤치마크 실험을 통해 UniSOT이 기존 모델보다 우수한 성능을 보임을 입증했습니다.
시사점, 한계점
•
시사점:
◦
다양한 참조 방식과 비디오 모달리티를 통합하여 단일 모델로 다양한 환경에서 객체 추적 가능.