[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models

Created by
  • Haebom

作者

Francesco Ortu, Zhijing Jin, Diego Doimo, Alberto Cazzaniga

概要

この論文は、ビジュアル言語モデル(VLM)がさまざまな知識源を活用して複雑な作業を実行する過程で、内部パラメータの知識と外部情報の間の衝突を経験する現象について説明しています。モーダル反実証的クエリ(multimodal counterfactual queries)データセットを導入することで、VLMがクロスモード衝突を解決するメカニズムを分析します。無効化(visual overrides)を引き起こす局所的な領域を正確に見つけ、勾配ベースの属性よりも精度が高いことを示しています。

Takeaways、Limitations

Takeaways:
VLMs の知識衝突解決メカニズムの新しい理解を提供します。
ロジットチェックによって衝突を制御する特定のヘッドを識別する方法を提示します。
そのヘッド操作でモデルの出力を制御できることを示します。
アテンションメカニズム分析により、視覚情報がモデル出力に影響するプロセスを明確にします。
勾配ベースの属性よりも正確な視覚領域局在化法を提示する。
Limitations:
提示された方法がすべてのVLMまたはすべてのタイプの知識の衝突に適用可能であるかどうかに関するさらなる研究が必要である。
マルチモーダル反実証的クエリデータセットの一般化パフォーマンスの検証が必要です。
ロジット検査とヘッド操作の解釈の可能性のさらなる分析が必要です。
特定のヘッドに対する操作がモデルの他の部分に及ぼす影響についての深い研究が必要である。
👍