Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

Created by
  • Haebom

作者

Ruofan Wang, Juncheng Li, Yixu Wang, Bo Wang, Xiaosen Wang, Yan Teng, Yingchun Wang, Xingjun Ma, Yu-Gang Jiang

概要

本論文は、大規模ビジョン言語モデル(VLM)の安全な配布のために、モデルの脆弱性を悪用して有害な出力を引き起こす脱獄攻撃の新しい方法であるIDEATORを提案します。 IDEATORは、VLM自体を強力な敵対モデルとして活用し、標的化された脱獄テキストを生成し、最先端の拡散モデルで生成された脱獄イメージと対になっています。実験の結果、IDEATORはMiniGPT-4に対して94%の攻撃成功率(ASR)を達成し、LLaVA、InstructBLIP、Chameleonにも高いASRを示した。さらに、IDEATORの強力な転移性と自動化されたプロセスに基づいて、3,654のマルチモード脱獄サンプルからなる安全性ベンチマークVLJailbreakBenchを紹介します。 11の最近リリースされたVLMのベンチマークの結果は、安全性アライメントに大きな違いがあることを示しています。

Takeaways、Limitations

Takeaways:
VLM自体を活用した新たな脱獄攻撃方法 IDEATOR提示
IDEATORの高い効率と転移性を実験的に証明
さまざまなVLMに対する安全性の脆弱性を示すVLJailbreakBenchベンチマークを公開
VLMの安全性向上のための研究開発の必要性を強調
Limitations:
IDEATORの効果は、使用されるVLMと拡散モデルのパフォーマンスに依存する可能性があります。
VLJailbreakBenchは現在の時点のVLMを対象としているため、今後のVLMの発展によってその有効性が変わる可能性があります。
提示されたベンチマークは特定のVLMに対する攻撃の成功率に焦点を当てており、さまざまな種類の有害性の包括的な評価は不十分です。
👍