Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding

Created by
  • Haebom

作者

Jianxiang He, Meisheng Hong, Jungang Li, Yijie Xu, Ziyang Chen, Weiyu Guo, Hui Xiong

概要

本論文は、長時間のビデオを理解するための効率的なキーフレーム検索方法であるVisual-Subtitle Integration(VSI)を提案します。既存のキーフレーム検索方法の制限であるテキストクエリと視覚コンテンツの間の弱いマルチモードアライメントと複雑な時間的意味情報の取得失敗の問題を解決するために、VSIは字幕、タイムスタンプ、シーン境界を統合マルチモード検索プロセスに統合します。ビデオ検索ストリームとキャプションマッチングストリームは、ビデオフレームの視覚情報と補完的なテキスト情報の両方を利用し、両方のストリームの相互作用を介してキーフレーム検索の精度を向上させます。 LongVideoBenchデータセットでは、キーフレームの位置精度と長時間のビデオクエリ応答(Video-QA)の課題において、競合技術をかなりの差で凌駕するパフォーマンスを達成し、SOTAを達成しました。

Takeaways、Limitations

Takeaways:
字幕、タイムスタンプ、シーン境界情報を活用したマルチモードキーフレーム検索の有効性を実証。
長時間ビデオを理解するための効率的で正確なキーフレーム検索方法を提示します。
LongVideoBenchデータセットでSOTAパフォーマンスを達成
マルチモード検索戦略の堅牢性と一般化の可能性の確認
Limitations:
特定のデータセット(LongVideoBench)のパフォーマンス評価による一般化の可能性に関するさらなる研究が必要です。
VSIの計算の複雑さと効率に関するさらなる分析が必要
さまざまな種類の長時間ビデオのパフォーマンス評価が必要です。
字幕のないビデオの適用可能性の制限。
👍