본 논문은 언어 표현을 기반으로 임의의 수의 대상을 위치 파악하고 비디오에서 지속적으로 추적하는 신흥 교차 모드 작업인 참조 다중 객체 추적(RMOT)을 다룹니다. 이 복잡한 작업에는 다중 모드 데이터에 대한 추론과 시간적 연관성을 갖춘 정확한 대상 위치 파악이 포함됩니다. 기존 연구는 작업의 특성상 신생 대상과 기존 대상 간의 불균형 데이터 분포를 간과하고, 다중 모드 특징을 간접적으로만 융합하여 신생 대상 탐지에 대한 명확한 지침을 제공하는 데 어려움을 겪었습니다. 본 논문은 이러한 문제를 해결하기 위해 공동 매칭 전략을 통해 불균형의 영향을 완화하고, 추적 성능을 유지하면서 신생 대상 탐지 능력을 향상시킵니다. 인코더에서는 교차 모드 및 다중 스케일 융합을 통합 및 향상시켜, 제한된 다중 모드 정보가 특징 맵 간에 공유 및 상호 작용되는 기존 연구의 병목 현상을 극복합니다. 디코더에서는 쿼리 토큰을 통해 명시적인 참조 지침을 제공하는 참조 주입 적응 방식을 개발했습니다. 실험 결과, 기존 연구와 비교하여 모델 성능이 +3.42% 향상되어 설계의 효과를 보여줍니다.