Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Defending LVLMs Against Vision Attacks through Partial-Perception Supervision

Created by
  • Haebom

作者

Qi Zhou, Tianlin Li, Qing Guo, Dongxia Wang, Yun Lin, Yang Liu, Jin Song Dong

概要

この論文は、大規模ビジョン言語モデル(LVLM)が悪意を持って注入または変形された入力画像に対して脆弱であることを扱います。既存の防御方法は画像の修正(特にトリミング)に敏感な視覚的攻撃を扱いますが、これらの修正は部分的な画像を生成し、意味論を歪め、投票後のきれいな画像に対する応答品質を低下させます。この論文では、部分画像の応答を直接投票に使用する代わりに、それを使用してLVLMの元の画像に対する応答を監視する方法について説明します。部分認識監督(DPS)と呼ばれるブラックボックスの無訓練方式を提案します。これは、部分画像のみを認識するモデルが生成した応答を使用してモデルにプロンプ​​トを提供する方法です。 DPSを使用すると、モデルは攻撃を受けたときの部分的なイメージの理解に基づいて応答を調整し、クリーンな入力に対して元の応答を自信を持って維持できます。実験の結果、弱いモデルが強いモデルを監督できることを示し、強いモデルは攻撃を受けると自信が低下し、弱いモデルの部分的な理解に基づいて応答を調整して攻撃を効果的に防御します。 3つの人気モデルの6つのデータセットで、平均攻撃成功率を76.3%減らすことがわかりました。

Takeaways、Limitations

Takeaways:
部分画像情報を活用して,大規模ビジョン言語モデルの敵対的攻撃に対する新しい防御手法を提示する。
既存の投票ベースの防御方式の限界を克服し、クリーンなイメージに対する応答品質の低下なしに攻撃を防御する効果的な方法を提示します。
弱いモデルを活用して、強いモデルを監督する独創的なアプローチを提示します。
さまざまなデータセットとモデルで高い防御性能を示します。
Limitations:
提案されたDPS方法があらゆる種類の視覚的攻撃に対して効果的であるかどうかを追加の研究が必要です。
特定の種類の部分画像や特定の攻撃方法では、防御性能が低下する可能性があります。
ブラックボックス方式なので、モデル内部の動作メカニズムを理解できない場合があります。
実際の環境での適用性の追加検証が必要です。
👍