Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

Created by
  • Haebom

作者

Ruofan Wang, Juncheng Li, Yixu Wang, Bo Wang, Xiaosen Wang, Yan Teng, Yingchun Wang, Xingjun Ma, Yu-Gang Jiang

概要

本論文は、大規模ビジョン言語モデル(VLM)の安全な展開のために、悪意のある出力をもたらす脱獄攻撃に対するVLMの堅牢性を評価する新しい方法であるIDEATORを提案します。既存の研究の限界であるさまざまなマルチモーダルデータの欠如を克服するために、VLM自体を活用して、標的化された脱獄テキストと最先端の拡散モデルで生成された脱獄画像をペアで生成します。 IDEATORはMiniGPT-4に対して94%の攻撃成功率(ASR)を達成し、LLaVA、InstructBLIP、Chameleonにも高いASRを示し、効果と転移性を実証します。また、3,654個のマルチモーダル脱獄サンプルからなる安全性ベンチマークであるVLJailbreakBenchを紹介し、11個の最近発売されたVLMのベンチマーク結果を通じて、大幅な安全アライメントの違いを示すことを明らかにします。 (例:GPT-4o 46.31%、Claude-3.5-Sonnet 19.65%ASR)。

Takeaways、Limitations

Takeaways:
VLM自体を活用した新たな脱獄攻撃方法 IDEATOR提示と高い効果性と転移性の実証
さまざまなVLMの安全性ベンチマークVLJailbreakBench公開。
現在VLMの安全性に対する深刻な脆弱性を明らかにし、より強力な防御の必要性を強調。
Limitations:
IDEATORの性能は、使用される拡散モデルとVLMの性能に依存する可能性があります。
VLJailbreakBenchの範囲は限られている可能性があり、より多様で広範なデータセットが必要になる可能性があります。
IDEATORがすべてのVLMに対して同じ効果を保証するわけではありません。 (特定モデルに対する防御機構の開発可能性)。
👍