본 논문은 비디오 이해 분야에서 추적 및 분할 작업을 통합하는 새로운 프레임워크인 SATA (Universal Tracking and Segmentation with Any Modality Input)를 제안합니다. 특히, 모달리티 간의 분포 차이와 작업 간의 특징 표현 차이를 해결하여 일반화 및 확장성을 향상시키는 데 중점을 둡니다. Decoupled Mixture-of-Expert (DeMoE) 메커니즘을 통해 모달리티 간의 지식 공유와 특정 정보 모델링을 분리하고, Task-aware Multi-object Tracking (TaMOT) 파이프라인을 통해 모든 작업의 출력을 통합된 인스턴스로 관리합니다. SATA는 18개의 까다로운 추적 및 분할 벤치마크에서 우수한 성능을 보이며, 보다 일반적인 비디오 이해를 위한 새로운 관점을 제시합니다.