[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Smart Routing for Multimodal Video Retrieval: When to Search What

Created by
  • Haebom

作者

Kevin Dela Rosa

概要

ModaRouteは、マルチモーダルビデオ検索に最適なモダリティを動的に選択するLLMベースのインテリジェントルーティングシステムです。従来の密集テキスト字幕方式はRecall @ 5で75.9%を達成しますが、高価なオフライン処理プロセスを必要とし、ASRでキャプチャされないシーンテキストを含む34%のクリップで重要な視覚情報を逃します。 ModaRouteはクエリの意図を分析し、情報ニーズを予測し、計算オーバーヘッドを41%削減し、Recall @ 5で60.9%を達成します。 GPT-4.1を使用してクエリをASR(音声)、OCR(テキスト)、視覚インデックスにルーティングし、クエリごとに平均1.78のモダリティを使用して、完全検索(3.0モダリティ)と比較して効率を向上させます。 180万のビデオクリップの評価の結果、インテリジェントルーティングはマルチモーダル検索システムを拡張するための実用的なソリューションを提供し、インフラストラクチャのコストを削減しながら、実際の展開に競争力のある効果を維持することを示しました。

Takeaways、Limitations

Takeaways:
LLMベースのインテリジェントルーティングがマルチモーダルビデオ検索システムの効率とスケーラビリティを向上できることを示した。
計算オーバーヘッドの削減とインフラストラクチャのコスト削減効果を確認します。
クエリ意図分析と情報要求予測による効果的なモダリティ選択戦略の提示
実際の環境展開のための実用的なソリューションを提供します。
Limitations:
Recall @ 5パフォーマンスは従来の方法(75.9%)と比較してやや低い(60.9%)。
GPT-4.1への依存度が高く、LLMの性能によってはシステム性能が影響を受ける可能性があります。
ASRとOCRの精度によってシステムパフォーマンスが制限されることがあります。
さまざまな種類のビデオデータの一般化パフォーマンス検証が必要です。
👍