Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning

Created by
  • Haebom

作者

Haonan Ge, Yiwei Wang, Kai-Wei Chang, Hang Wu, Yujun Cai

概要

FrameMindは、固定フレームサンプリング戦略に依存する既存のビデオ理解モデルの制限を克服するために開発された、フレーム相互作用思考チェーン(FiCOT)に基づく強化学習ベースのエンドツーエンドフレームワークです。このフレームワークはテキスト推論とアクティブな視覚認識を交互に行い、知識ギャップに基づいて特定のフレームまたはビデオクリップを抽出するためのツールを使用します。 Dynamic Resolution Frame Sampling(DRFS)とDRFS-GRPOを介して学習された動的サンプリングポリシーは、さまざまな時空間トレードオフを学習し、フレームレベルのコメントなしで結果ベースの報酬から学習します。 MLVUやVideoMMEなどのベンチマークでは、従来のモデルよりもパフォーマンスが優れていることが証明されています。

Takeaways、Limitations

Takeaways:
強化学習を活用した動的視覚情報要求によるビデオ理解性能の向上
FiCOTによるテキスト推論と視覚認知の相互作用
DRFSとDRFS-GRPOを活用した効果的な動的サンプリングポリシー学習
MLVUとVideoMMEのベンチマークでSOTAを達成。
Limitations:
特定の知識のギャップを識別し、適切なフレームを選択する能力に関するさらなる研究が必要です。
DRFSとDRFS-GRPOの一般化能力の追加評価が必要
複雑なビデオデータのスケーラビリティ検証が必要です。
計算コストとトレーニング時間。
👍