この論文は、大規模ビジョン言語モデル(LVLM)が視覚的証拠のないテキスト入力を画像の一部として誤って認識し、エラーを引き起こす現象を明らかにします。研究者は、LVLMの内部でテキストの概念が画像に基づいているかどうかを判断する能力を調べ、視覚的不在をユニークなアクティブパターンでシグナリングするフィードフォワードネットワーク(FFN)ニューロンの特定のサブセットである視覚的不在認識(VA)ニューロンを発見しました。このパターンを活用して、入力トークンが視覚的に基づいているかどうかを分類する検出モジュールを開発し、この予測に従って質問プロンプトを再解釈するか、生成中に検出された不在トークンを置き換えて出力を改善する方法を提案します。広範な実験を通して提案された方法は、モデルの視覚的存在に対する誤った仮定傾向を効果的に軽減し、様々なLVLMで一般性を有することを示している。