CLDTracker는 비디오 객체 추적(VOT)에서 동적인 외형 변화, 폐색, 배경 혼잡 등의 어려움을 해결하기 위해 제안된 새로운 프레임워크입니다. 기존의 시각적 단서에 의존하는 추적기의 한계를 극복하고자, VLMs(Vision-Language Models)의 의미 이해 능력을 활용합니다. CLDTracker는 시각적 분기와 문자적 분기로 구성된 이중 분기 아키텍처를 통해, CLIP과 GPT-4V와 같은 VLMs를 활용하여 풍부한 문맥적 단서를 포함한 텍스트 설명을 생성하고, 이를 시각적 정보와 효율적으로 융합하여 객체의 외형 변화를 시간적으로 모델링합니다. 여러 VOT 벤치마크에서 최첨단 성능을 달성하여, 강력하고 시간에 따라 적응적인 시각-언어 표현을 활용한 추적의 효과를 입증했습니다.