Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity

Created by
  • Haebom

作者

Zhibin Lan, Liqiang Niu, Fandong Meng, Wenbo Li, Jie Zhou, Jinsong Su

概要

本稿では、高解像度画像処理における多数の視覚トークン生成問題を解決するために、入力画像とディレクティブに基づいて視覚的粒度を適応的に選択する大規模マルチモーダルモデル(LMM)であるAVG-LLaVAを提案します。 AVG-LLaVAは、マルチプーリング層を介してさまざまな粒度の視覚トークンを生成し、Transformer、MLP、およびvoter層で構成される視覚的粒度ルータを使用して適切な粒度を選択します。さらに、追加の手動注釈データなしでルータの予測とLMMの好みを並べ替える新しいトレーニング方法であるRGLFも紹介します。実験の結果、AVG-LLaVAは11個のベンチマークで優れた性能を達成し、視覚トークンの数を大幅に減らし、推論速度を向上させることが示されています(例えば、AI2Dベンチマークで視覚トークン85.3%減少、推論速度2.53倍増加)。

Takeaways、Limitations

Takeaways:
高解像度画像処理時に発生する過度の視覚トークン問題を効果的に解決する新しいアプローチの提示
入力画像とディレクティブに従って適応的に視覚的粒度を調整することで性能と効率を向上
追加データなしでモデルの視覚的セグメンテーション選択能力を向上させるRGLFトレーニング方式を提示します。
さまざまなベンチマークで従来モデルより優れた性能と効率性を実証
Limitations:
提示したRGLF訓練方式の一般化性能と他のLMMへの適用性に関するさらなる研究が必要
さまざまな種類の高解像度画像と複雑なディレクティブに対するロバースト性評価が必要
視覚的粒度ルータの複雑さと計算コストの分析の必要性
👍