Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Scaling RL to Long Videos

Created by
  • Haebom

作者

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han

概要

この論文では、長時間のビデオの推論を拡張するために強化学習を活用するフルスタックフレームワークを紹介します。この目的のために、3つの重要なコンポーネントを統合します。まず、さまざまな分野(スポーツ、ゲーム、ブログなど)で高品質の推論注釈を含む104,000の長時間ビデオQAペアで構成される大規模なデータセットLongVideo-Reasonです。第二に、事故連鎖マップ学習(CoT-SFT)と強化学習(RL)を介してVLMを拡張する2段階学習パイプラインです。第三に、シーケンス並列化と長時間ビデオにカスタマイズされたvLLMベースのエンジンを統合し、効率的な展開とプリフィルのためのキャッシュビデオ埋め込みを使用する長時間ビデオRL用の学習インフラストラクチャMR-SPです。実験の結果、LongVILA-R1-7Bはビデオベンチマークで強力な性能を達成し、VideoMMEで字幕なしで65.0%、字幕があるとき70.7%の精度を記録し、複数のベンチマークでLongVILA-R1を一貫して上回りました。さらに、入力ビデオフレームの数が増加するにつれて、LongVILA-R1の性能は着実に向上しました。 MR-SPシステムは、長時間のビデオRL学習速度を最大2.1倍向上しました。最後に、さまざまなモダリティ(ビデオ、テキスト、オーディオ)、さまざまなモデル(VILAおよびQwenシリーズ)、さらには画像やビデオ生成モデルまでサポートするRL学習のためのトレーニングシステムを公開します。単一のA100ノード(8つのGPU)で最大1時間のビデオ(3,600フレーム/約256,000トークンなど)のRL学習をサポートします。

Takeaways、Limitations

Takeaways:
長時間のビデオに対する以前よりも改善されたビデオ言語モデルの推論性能を提示する。
効率的な長時間ビデオ強化学習のための新しいフレームワーク(MR-SP)を提示します。
大規模で長時間のビデオQAデータセットLongVideo-Reasonを公開します。
公開された学習システムは、さまざまなモダリティとモデルをサポートし、研究の再現性とスケーラビリティを高めます。
Limitations:
データセットの多様性とバランスの詳細な説明はありません。
強化学習アルゴリズムの具体的な詳細が欠けているため、再現性が困難になる可能性があります。
特定のハードウェア環境(A100ノード)に依存するパフォーマンス結果が提示され、一般化の可能性に関するさらなる研究が必要です。
LongVILA-R1-7Bモデルのパラメータサイズに関する情報が不足しています。
👍