본 논문은 기존 비디오 검색 방식의 구조적 문제점을 지적하고, 이를 해결하기 위해 평가, 데이터, 모델링을 통합적으로 설계한 프레임워크를 제시합니다. 구체적으로, 다양한 작업 및 도메인에 걸쳐 성능을 측정하고 중요한 능력 격차를 진단하는 16개의 데이터 세트로 구성된 Universal Video Retrieval Benchmark (UVRB)를 개발했습니다. UVRB의 진단 결과를 바탕으로, 보편성을 위해 필요한 의미 공간을 채우기 위해 155만 개의 고품질 쌍을 생성하는 확장 가능한 합성 워크플로우를 도입했습니다. 마지막으로, 다양한 데이터 내 잠재적 상호 연결을 활용하여 General Video Embedder (GVE)를 훈련하는 Modality Pyramid를 고안했습니다. 실험 결과, GVE는 UVRB에서 최첨단 제로샷 일반화를 달성했습니다. 특히, 기존 벤치마크는 일반적인 능력을 예측하는 데 부적합하며, 부분적으로 관련된 검색이 중요한 시나리오임을 밝혀냈습니다.