Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models

Created by
  • Haebom

作者

Shuang Liang, Zhihao Xu, Jialing Tao, Hui Xue, Xiting Wang

概要

大規模ビジュアル言語モデル(LVLM)は、幅広いソート作業にもかかわらず、安全上のリスクをもたらす脱獄攻撃に対して脆弱です。既存の検出方法は、攻撃固有のパラメータを学習して、見えない攻撃の一般化を阻害したり、経験的原理に依存して精度と効率を制限したりします。この論文は、この制限を克服するために、攻撃固有の学習からタスク固有の学習に焦点を当てて未知の脱獄攻撃を正確に検出する一般的なフレームワークであるLearning to Detect(LoD)を提案します。このフレームワークには、安全指向の表現学習のためのマルチモードセーフティコンセプトアクティベーションベクトルモジュールと、非マップ攻撃分類のためのセーフティパターンオートエンコーダモジュールが含まれています。さまざまな実験を通して、提案された方法は、さまざまな未知の攻撃に対して一貫して高い検出AUROCを達成し、効率を向上させたことを確認しました。

Takeaways、Limitations

Takeaways:
新しい脱獄攻撃の一般化能力を向上させる新しいLVLM攻撃検出フレームワークの提案。
Multi-modal Safety Concept Activation VectorおよびSafety Pattern Auto-Encoderモジュールを活用し、安全指向の効率的な攻撃検出を可能にします。
さまざまな未知の攻撃に対して高い検出性能を実証
Limitations:
研究に使用された特定のLVLMモデルと攻撃タイプへの依存性。
改善された効率に関する具体的な定量的データの欠如。
LoDフレームワークの実際の展開と安全性の検証に関する追加の研究が必要です。
👍