본 논문은 비디오와 언어 정보를 결합한 영상 추적(VL tracking)을 위한 새로운 프레임워크 COST를 제안합니다. 기존 VL tracker들이 복잡한 다단계 다모달 융합 메커니즘에 의존하는 것과 달리, COST는 대조 학습 기반의 일단계 트랜스포머 융합 방식을 사용하여 의미적으로 일관되고 통합된 VL 표현을 학습합니다. 특히, 비디오와 해당 언어 설명 간의 상호 정보량(MI)을 극대화하는 대조적 정렬 전략을 도입하여 효과적인 교차 모달 정렬을 수행하고, 시각-언어 트랜스포머를 활용하여 효율적인 다모달 융합 및 추론 메커니즘을 구축합니다. 또한, 소형 객체 추적을 위한 새로운 VL 추적 벤치마크 데이터셋 VL-SOT500을 공개하며, 이는 언어 정보를 활용하여 소형 객체 추적 성능을 향상시키는 최초의 데이터셋입니다. 실험 결과, COST는 기존 다섯 개의 VL 추적 데이터셋과 VL-SOT500 데이터셋에서 최첨단 성능을 달성했습니다. 소스 코드와 데이터셋은 공개될 예정입니다.