ModaRoute는 다중 모달 비디오 검색을 위해 최적의 모달리티를 동적으로 선택하는 LLM 기반 지능형 라우팅 시스템입니다. 기존의 밀집 텍스트 자막 방식은 Recall@5에서 75.9%를 달성하지만, 비싼 오프라인 처리 과정이 필요하고 ASR로 포착되지 않는 장면 텍스트가 있는 34%의 클립에서 중요한 시각 정보를 놓칩니다. ModaRoute는 쿼리 의도를 분석하고 정보 요구를 예측하여 계산 오버헤드를 41% 줄이면서 Recall@5에서 60.9%를 달성합니다. GPT-4.1을 사용하여 쿼리를 ASR(음성), OCR(텍스트), 시각 인덱스에 라우팅하며, 쿼리당 평균 1.78개의 모달리티를 사용하여 완전 검색(3.0 모달리티) 대비 효율성을 높입니다. 180만 개의 비디오 클립에 대한 평가 결과, 지능형 라우팅은 다중 모달 검색 시스템의 확장을 위한 실용적인 솔루션을 제공하여 인프라 비용을 절감하면서 실제 배포를 위한 경쟁력 있는 효과를 유지하는 것으로 나타났습니다.