Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SpecVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning

Created by
  • Haebom

作者

Yicheng Ji, Jun Zhang, Heming Xia, Jinpeng Chen, Lidan Shou, Gang Chen, Huan Li

概要

本論文は、ビデオ大規模言語モデル(Vid-LLM)の効率的な復号化のためのトレーニングなしで動作する推測的復号化(SD)フレームワークであるSpecVLMを提案します。 Vid-LLMsはビデオコンテンツの理解に強力なパフォーマンスを示していますが、密集したビデオトークン表現のためにメモリと計算のオーバーヘッドがかなりあります。 SpecVLMは、段階的なビデオトークンの剪定を介して情報の損失を最小限に抑え、デコード速度を向上させます。ドラフトモデルの推測がビデオトークンの剪定に鈍感であることを発見し、最大90%のビデオトークンを持ちながら精度を維持します。これは、検証者モデルのアテンション信号に基づいて情報豊富なトークンを選択するステップ1と、空間的に均一に冗長トークンを持つステップ2で構成されています。実験の結果、LLaVA-OneVision-72Bで最大2.68倍、Qwen2.5-VL-32Bで最大2.11倍のデコード速度向上を達成しました。

Takeaways、Limitations

Takeaways:
Vid-LLMの復号化速度を劇的に向上させる、効率的な訓練のない推測的復号化フレームワークを提示します。
ビデオトークンの剪定により、メモリと計算リソースを節約できます。
LLaVA-OneVision-72BやQwen2.5-VL-32Bなどの大規模モデルでも効果的に動作します。
公開されたコードにより、再現性と活用性が向上しました。
Limitations:
提案された方法の効果は、特定のVid-LLMモデルとビデオ理解ベンチマークに限定することができます。
剪定戦略の最適化は、モデルとデータセットによって異なります。
より多様なビデオデータセットとモデルの実験が必要です。
推測的復号の精度低下のさらなる分析が必要である。
👍