Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization

Created by
  • Haebom

作者

Anas Anwarul Haq Khan, Utkarsh Verma, Ganesh Ramakrishnan

概要

DEEVISumは、ビデオセグメントごとの要約のために設計された軽量で効率的でスケーラブルなビジョン言語モデルです。テキストとオーディオベースの信号を組み合わせたマルチモードプロンプトを活用し、多段階知識蒸留(MSKD)と早期終了(EE)を統合して、パフォーマンスと効率のバランスをとります。 MSKDは基準蒸留に対して1.33%の絶対F1向上を提供し、EEはF1スコアが1.3ポイント減少するのではなく、推論時間を約21%短縮します。 TVSumデータセットで評価した結果、最高性能モデルであるPaLI Gemma2 3B + MSKDは61.1のF1スコアを達成し、はるかに大きなモデルと競争力を持ちながらも低い計算コストを維持します。コードと処理されたデータセットを公開し、さらなる研究を支援します。

Takeaways、Limitations

Takeaways:
軽量化されたビジョン言語モデルにより、ビデオサマリーの効率とスケーラビリティが向上しました。
MSKDとEE技術により、性能と効率のバランスをうまく達成しました。
大規模モデルに匹敵する性能を低い計算コストで達成した。
コードとデータセットの公開を通じて、その後の研究を支援します。
Limitations:
EE技術の適用により、F1スコアが1.3ポイント減少しました。
TVSum データセットを 1 つだけ使用して評価されたため、一般化パフォーマンスの追加検証が必要です。
👍