DEEVISumは、ビデオセグメントごとの要約のために設計された軽量で効率的でスケーラブルなビジョン言語モデルです。テキストとオーディオベースの信号を組み合わせたマルチモードプロンプトを活用し、多段階知識蒸留(MSKD)と早期終了(EE)を統合して、パフォーマンスと効率のバランスをとります。 MSKDは基準蒸留に対して1.33%の絶対F1向上を提供し、EEはF1スコアが1.3ポイント減少するのではなく、推論時間を約21%短縮します。 TVSumデータセットで評価した結果、最高性能モデルであるPaLI Gemma2 3B + MSKDは61.1のF1スコアを達成し、はるかに大きなモデルと競争力を持ちながらも低い計算コストを維持します。コードと処理されたデータセットを公開し、さらなる研究を支援します。