Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding

Created by
  • Haebom

作者

Lin Long, Changdae Oh, Seongheon Park, Sharon Li

概要

大規模ビジュアル言語モデル(LVLM)はマルチモーダルタスクで強力なパフォーマンスを発揮しますが、事前に訓練されたテキストパターンである言語先入観(LP)に依存する傾向があります。本論文は、LVLM内の階層別表現力学を調べるチェーン・オブ・エンベディングによって言語的先入観を体系的に分析する。ビジュアル情報が意味のある隠れ表現を再構築し、デコードに影響を与える重要な層であるVisual Integration Point(VIP)が各モデルに現れることを発見した。 VIPの後の表現距離を集計し、視覚的クエリが応答の生成にどれだけ強く影響するかを定量化するTotal Visual Integration(TVI)推定器を提示します。 9つのLVLMと6つのベンチマークをカバーする54のモデルとデータセットの組み合わせで、VIPが一貫して現れ、TVIが言語的先入観の強度を安定的に予測することを実証しています。これは、LVLMで言語的先入観を診断し理解するためのツールを提供します。

Takeaways、Limitations

Takeaways:
LVLM内で視覚情報統合ポイント(VIP)の普遍的な存在を明らかにする。
TVI推定器を通して言語的先入観の強度を定量的に測定する方法を提示する。
LVLMの言語的先入観を診断し理解するための実用的なツールを提供します。
Limitations:
Chain-of-embedding 分析技術の潜在的な制約
提案されたVIPとTVIの一般化の可能性に関するさらなる研究が必要です。
様々なLVLMアーキテクチャとデータセットに対する実験拡張の必要性
👍