Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding

Created by
  • Haebom

作者

Ye Wang, Ziheng Wang, Boshen Xu, Yang Du, Kejun Lin, Zihan Xiao, Zihao Yue, Jianzhong Ju, Liang Zhang, Dingyi Yang, Xiangnan Fang, Zewen He, Zhenbo Luo, Wenxuan Wang, Junqi Lin, Jian Luan, Qin

概要

この論文は、長文ビデオの理解の重要な課題である時間的ビデオグランド(TVG)について説明します。最近、大規模ビジュアル言語モデル(LVLM)は、マップ学習微調整(SFT)を介してTVGを解決することに初期の成果を示しましたが、一般化能力は依然として制限されています。これを解決するために、強化学習(RL)を介してLVLMの一般化能力を向上させる新しいポストトレーニングフレームワークを提案します。主な貢献は3つの方向で行われます。まず、検証可能な補償を使用したRLによる推論ベースのポストトレーニングフレームワークTime-R1を提示し、TVG操作におけるLVLMの機能を向上させます。第二に、RLに優しいデータセットでデータ効率的なポストトレーニング戦略TimeRFTを探索し、モデルが徐々に困難なサンプルを理解するようにトレーニングし、一般化パフォーマンスを向上させます。第三に、11種類の質問を評価し、ビデオと質問の両方でバランスのとれた分布を特徴とする小規模で包括的なLVLM評価ベンチマークであるTVGBenchを構築します。広範な実験は、Time-R1が2.5Kのトレーニングデータのみを使用して、いくつかのサブデータセットで最先端のパフォーマンスを達成し、一般的なビデオ理解機能を向上させることを示しています。

Takeaways、Limitations

Takeaways:
強化学習ベースのポストトレーニングフレームワークを介してLVLMのTVG性能と一般化能力を向上させる可能性を提示します。
データ効率的なポストトレーニング戦略により、少量のデータでも優れたパフォーマンス達成の可能性を確認します。
TVGBenchという新しいベンチマークを提供し、LVLM性能評価の基準を設ける。
2.5Kの少量データだけでも最先端の性能を達成。
Limitations:
提案されたフレームワークのパフォーマンスは、特定のデータセットとベンチマークに依存する可能性があります。
強化学習ベースのトレーニングコースは、計算コストが比較的高くなる可能性があります。
TVGBenchの規模が小さく、一般化性能を完全に評価するには不足する可能性がある。
さまざまな種類のビデオとクエリに対するロバストネスの追加検証が必要です。
👍