ModaRouteは、マルチモーダルビデオ検索に最適なモダリティを動的に選択するLLMベースのインテリジェントルーティングシステムです。従来の密集テキスト字幕方式はRecall @ 5で75.9%を達成しますが、高価なオフライン処理プロセスを必要とし、ASRでキャプチャされないシーンテキストを含む34%のクリップで重要な視覚情報を逃します。 ModaRouteはクエリの意図を分析し、情報ニーズを予測し、計算オーバーヘッドを41%削減し、Recall @ 5で60.9%を達成します。 GPT-4.1を使用してクエリをASR(音声)、OCR(テキスト)、視覚インデックスにルーティングし、クエリごとに平均1.78のモダリティを使用して、完全検索(3.0モダリティ)と比較して効率を向上させます。 180万のビデオクリップの評価の結果、インテリジェントルーティングはマルチモーダル検索システムを拡張するための実用的なソリューションを提供し、インフラストラクチャのコストを削減しながら、実際の展開に競争力のある効果を維持することを示しました。