[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Smart Routing for Multimodal Video Retrieval: When to Search What

Created by
  • Haebom

저자

Kevin Dela Rosa

개요

ModaRoute는 다중 모달 비디오 검색을 위해 최적의 모달리티를 동적으로 선택하는 LLM 기반 지능형 라우팅 시스템입니다. 기존의 밀집 텍스트 자막 방식은 Recall@5에서 75.9%를 달성하지만, 비싼 오프라인 처리 과정이 필요하고 ASR로 포착되지 않는 장면 텍스트가 있는 34%의 클립에서 중요한 시각 정보를 놓칩니다. ModaRoute는 쿼리 의도를 분석하고 정보 요구를 예측하여 계산 오버헤드를 41% 줄이면서 Recall@5에서 60.9%를 달성합니다. GPT-4.1을 사용하여 쿼리를 ASR(음성), OCR(텍스트), 시각 인덱스에 라우팅하며, 쿼리당 평균 1.78개의 모달리티를 사용하여 완전 검색(3.0 모달리티) 대비 효율성을 높입니다. 180만 개의 비디오 클립에 대한 평가 결과, 지능형 라우팅은 다중 모달 검색 시스템의 확장을 위한 실용적인 솔루션을 제공하여 인프라 비용을 절감하면서 실제 배포를 위한 경쟁력 있는 효과를 유지하는 것으로 나타났습니다.

시사점, 한계점

시사점:
LLM 기반 지능형 라우팅을 통해 다중 모달 비디오 검색 시스템의 효율성 및 확장성을 향상시킬 수 있음을 보여줌.
계산 오버헤드 감소 및 인프라 비용 절감 효과를 확인.
쿼리 의도 분석 및 정보 요구 예측을 통한 효과적인 모달리티 선택 전략 제시.
실제 환경 배포를 위한 실용적인 솔루션 제공.
한계점:
Recall@5 성능이 기존 방식(75.9%) 대비 다소 낮음 (60.9%).
GPT-4.1에 대한 의존도가 높아, LLM의 성능에 따라 시스템 성능이 영향을 받을 수 있음.
ASR 및 OCR의 정확도에 따라 시스템 성능이 제한될 수 있음.
다양한 유형의 비디오 데이터에 대한 일반화 성능 검증이 필요.
👍