Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency

Created by
  • Haebom

作者

Shiji Zhao, Ranjie Duan, Fengxiang Wang, Chi Chen, Caixin Kang, Shouwei Ruan, Jialing Tao, YueFeng Chen, Hui Xue, Xingxing Wei

概要

本稿では、マルチモーダル大規模言語モデル(MLLM)の安全メカニズムの脆弱性について説明します。従来の脱獄攻撃方法は、複雑な最適化技術や慎重に設計された画像やテキストプロンプトを通じて安全メカニズムを迂回しますが、商用閉鎖型MLLMに対する攻撃の成功率が低いという制限があります。本論文では、MLLMの理解能力と安全能力との間のシャッフル不一致(Shuffle Inconsistency)現象を発見しました。つまり、MLLMはシャッフルされた有害な指示文をよく理解しています(理解能力)が、同時にシャッフルされた有害な指示文によって安全メカニズムを簡単にバイパスすることができます(安全性)。これを利用して、テキスト画像脱獄攻撃技術であるSI-Attackを提案します。 SI-Attackはシャッフル不一致を活用し、有毒判定モデルからのフィードバックに基づいてクエリベースのブラックボックス最適化技術を適用して、最も有害なシャッフル入力を選択します。実験の結果、SI-Attackは3つのベンチマークで攻撃性能を向上させ、特にGPT-4oやClaude-3.5-Sonnetなどの商用MLLMに対する攻撃成功率を大幅に高めました。

Takeaways、Limitations

Takeaways:
MLLMの安全メカニズムに対する新たな脆弱性であるシャッフルミスマッチ現象を発見し、これを活用した効果的な脱獄攻撃技法(SI-Attack)を提示しました。
従来の方法より商用MLLMに対する攻撃の成功率を向上させました。
MLLMの安全性を強化するための新しい研究方向を提示します。
Limitations:
SI-Attackの効果は、毒性判定モデルの性能に依存し得る。
特定のタイプのMLLMに対してのみ有効である可能性があります。より多様なMLLMの実験が必要です。
ブラックボックス最適化技術を使用しているため、計算コストが高くなる可能性があります。
👍