Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

B-VLLM: A Vision Large Language Model with Balanced Spatio-Temporal Tokens

Created by
  • Haebom

作者

Zhuqiang Lu, Zhenfei Yin, Mengwei He, Zhihui Wang, Zicheng Liu, Zhiyong Wang, Kun Hu

概要

この論文では、ビジョン大規模言語モデル(VLLM)を使用した長時間の画像理解の難しさを解決するために、テキスト条件付き適応フレーム選択モジュールと時間フレームトークンマージ技術、空間トークンサンプリングモジュール、およびマージ戦略を活用したBalanced-VLLM(B-VLLM)フレームワークを紹介します。既存のVLLMは、ビデオダウンサンプリングまたは各フレームの視覚トークン数の減少によって時間的または空間的情報損失が発生する問題を解決するために、課題関連の時空間的手がかりを効果的に活用しながら、VLLMのコンテキストウィンドウの長さ内で視覚トークン数を制限する方法を提案します。実験の結果、B-VLLMがさまざまなイメージングベンチマークで優れた性能を示すことが確認されました。

Takeaways、Limitations

Takeaways:
VLLMベースの長時間映像理解の効率性を大幅に向上させました。
テキスト条件付き適応フレーム選択とトークンマージ戦略により、課題関連情報の損失を最小限に抑えました。
さまざまなイメージングベンチマークで、従来の方法より優れたパフォーマンスを達成しました。
公開されたコードで再現性を高めました。
Limitations:
提案された方法の計算の複雑さの詳細な分析が不足しています。
特定のタイプの画像データに対する性能偏向の可能性が存在する。
より多様で複雑な画像理解の課題に対する追加の実験が必要です。
👍