본 논문은 컨텍스트 광고를 위한 새로운 다중 모달 전문가 기반 비디오 검색 시스템인 ContextIQ를 제안합니다. 기존의 공동 다중 모달 훈련 기반 텍스트-비디오 검색 모델은 대규모 데이터셋과 높은 계산 자원을 필요로 하지만, ContextIQ는 모달별 전문가(비디오, 오디오, 자막, 메타데이터 등)를 활용하여 의미적으로 풍부한 비디오 표현을 생성함으로써 공동 훈련 없이도 최첨단 모델 및 상용 솔루션과 비교 가능하거나 더 나은 성능을 여러 벤치마크에서 달성합니다. 여러 모달리티 활용의 이점을 보여주며, 브랜드 안전 및 부적절한 콘텐츠 필터링과 관련된 문제를 해결하면서 컨텍스트 광고 에코시스템에서 비디오 검색 시스템의 활용 방안을 제시합니다.