본 논문은 기존의 비전-언어(VL) 추적 프레임워크가 시각적 특징 추출기, 언어적 특징 추출기, 그리고 융합 모델의 세 부분으로 나뉘어져 효율성이 떨어지고 복잡한 상황(예: 유사한 방해물, 극단적인 조명)에서 목표물 인식 능력이 제한적이라는 점을 지적한다. 이를 해결하기 위해, 본 논문에서는 자연어와 컴퓨터 비전 작업 모두에 통합된 아키텍처를 가진 기초 모델의 성공에 착안하여, 통합된 트랜스포머 백본을 채택하여 공동 특징 추출 및 상호 작용을 학습하는 올인원(All-in-One) 프레임워크를 제안한다. 원시 비전 및 언어 신호를 혼합하여 언어 주입 비전 토큰을 생성하고, 통합 백본 아키텍처에 입력하기 전에 이를 연결하여 특징 통합을 수행한다. 또한, 학습 효율을 높이기 위해 교차 모드 및 모드 내 대조 목표를 기반으로 하는 다중 모드 정렬 모듈을 도입하여 통합된 올인원 트랜스포머 백본에 대해 더욱 합리적인 표현을 제공한다. OTB99-L, TNL2K, LaSOT, LaSOT<sub>Ext</sub>, WebUAV-3M 등 5개의 벤치마크에 대한 광범위한 실험을 통해 기존 최첨단 VL 추적 기술보다 제안된 추적기의 우수성을 입증한다.