Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Scaling RL to Long Videos

Created by
  • Haebom

作者

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han

LongVILA-R1-7B:長時間のビデオ推論のためのフルスタックフレームワーク

概要

この論文では、強化学習を活用して視覚言語モデル(VLM)の長時間ビデオ推論能力を拡張するフルスタックフレームワークを紹介します。このために、(1)スポーツ、ゲーム、ブログなど様々なドメインにわたって高品質の推論注釈を含む104,000個の長時間ビデオQAペアで構成された大規模なデータセットであるLongVideo-Reason、(2)CoT-SFT(chain-of-thought supervised fine-tuning)とステップ3(RL3)並列処理と長時間ビデオに合わせて調整されたvLLMベースのエンジンを統合し、効率的なロールアウトとプリフィリングのためにキャッシュされたビデオ埋め込みを使用する長時間ビデオRLトレーニングインフラストラクチャマルチモードリinforcement Sequence Parallelism(MR-SP)を統合しました。 LongVILA-R1-7Bはビデオベンチマークで強力な性能を達成し、VideoMMEで字幕なしで65.1%、字幕を含めた場合71.1%の精度を記録し、複数のベンチマークでLongVILA-7Bより一貫して高い性能を示しました。さらに、LongVILA-R1-7Bは、ビデオあたり最大8,192のビデオフレームと設定可能なFPS設定をサポートします。 MR-SPシステムは、長時間のビデオRLトレーニングで最大2.1倍の速度向上を達成しました。最後に、さまざまなモダリティ(ビデオ、テキスト、オーディオ)、さまざまなモデル(VILAおよびQwenシリーズ)、および画像およびビデオ生成モデルのRLトレーニングをサポートするオープントレーニングシステムを提供します。単一のA100ノード(8つのGPU)で時間単位のビデオ(3,600フレームなど)のRLトレーニングをサポートします。

Takeaways、Limitations

Takeaways:
長時間のビデオ推論のための大規模データセットと強化学習ベースのフレームワークの提示
さまざまなドメインで優れたパフォーマンスを実証
長時間のビデオRLトレーニングのための効率的なインフラ開発(MR-SP)
さまざまなモデルとモダリティをサポートするオープントレーニングシステムを提供
Limitations:
論文に記載されているLimitationsはありません(Abstractに記載されていません)
👍