Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models

Created by
  • Haebom

作者

Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang

概要

本論文では、きめ細かい時間的基盤を持つビデオの理解に苦しむ既存のビデオ巨大言語モデル(Video-LLM)の限界を解決するために、細かいレベルで特定のビデオ瞬間を認識し推論する新しいVideo-LLMであるGrounded-VideoLLMを提示します。 Grounded-VideoLLMは、フレーム間の関係をエンコードする追加の時間ストリームと、特定の時間情報が豊富に含まれている離散的な時間トークンを導入して、既存のモデルの時間的モデリングとタイムスタンプ表現の欠如の問題を解決します。マルチレベル学習方式でモデルをトレーニングし、自動注釈パイプラインを介して構築されたgrounded VideoQAデータセットを活用して時間的推論能力を向上させます。実験の結果、Grounded-VideoLLMは、時間ステートメントベースの指定、高密度ビデオキャプションの作成、grounded VideoQAなどのきめ細かなベース指定タスクで優れたパフォーマンスを示し、一般的なビデオ理解のための多目的ビデオアシスタントとしての可能性を示しています。

Takeaways、Limitations

Takeaways:
既存のVideo-LLMの時間的モデリングとタイムスタンプ表現の限界を克服する新しいアーキテクチャを提示します。
時間的な文章ベースの指定、高密度ビデオキャプションの作成、Grounded VideoQAなど、細かい時間ベースの指定タスクで優れたパフォーマンスを実現します。
さまざまなビデオ理解作業に利用可能な多目的ビデオアシスタントとしての可能性を提示します。
自動注釈パイプラインによる効率的なデータセットの構築方法を紹介します。
Limitations:
提案されたモデルのパフォーマンス向上に寄与する要因の相対的な重要性分析が不足する可能性があります。
様々な種類のビデオデータの一般化性能のさらなる検証が必要である。
自動注釈パイプラインの精度と信頼性の評価が必要です。
大規模な物理データセットの実験結果が不足する可能性があります。
👍