Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Unveiling the Response of Large Vision-Language Models to Visually Absent Tokens

Created by
  • Haebom

作者

ソヒエキム、ソヒョンリュウ、ジョンヒョンパーク、ウンホヤン

概要

この論文は、大規模ビジョン言語モデル(LVLM)が視覚的証拠のないテキスト入力を画像の一部として誤って認識し、エラーを引き起こす現象を明らかにします。研究者は、LVLMの内部でテキストの概念が画像に基づいているかどうかを判断する能力を調べ、視覚的不在をユニークなアクティブパターンでシグナリングするフィードフォワードネットワーク(FFN)ニューロンの特定のサブセットである視覚的不在認識(VA)ニューロンを発見しました。このパターンを活用して、入力トークンが視覚的に基づいているかどうかを分類する検出モジュールを開発し、この予測に従って質問プロンプトを再解釈するか、生成中に検出された不在トークンを置き換えて出力を改善する方法を提案します。広範な実験を通して提案された方法は、モデルの視覚的存在に対する誤った仮定傾向を効果的に軽減し、様々なLVLMで一般性を有することを示している。

Takeaways、Limitations

Takeaways:
LVLMの視覚情報処理プロセスの新しい理解を提供します。
視覚的根拠のないテキスト入力を検出し、出力を改善する新しい方法を紹介します。
様々なLVLMに適用可能な一般的な方法論を提示する。
Limitations:
VAニューロンの活性パターンがすべてのLVLMで同一に見えるかどうかに関するさらなる研究が必要である。
提案された方法のパフォーマンスがさまざまな種類の画像とテキスト入力にどのように一般化されているかをさらに検証する必要があります。
複雑な視覚的推論が必要な場合の性能に関するさらなる研究が必要である。
👍