Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models
Created by
Haebom
作者
Shuang Liang, Zhihao Xu, Jialing Tao, Hui Xue, Xiting Wang
概要
大規模ビジュアル言語モデル(LVLM)は、幅広いソート作業にもかかわらず、安全上のリスクをもたらす脱獄攻撃に対して脆弱です。既存の検出方法は、攻撃固有のパラメータを学習して、見えない攻撃の一般化を阻害したり、経験的原理に依存して精度と効率を制限したりします。この論文は、この制限を克服するために、攻撃固有の学習からタスク固有の学習に焦点を当てて未知の脱獄攻撃を正確に検出する一般的なフレームワークであるLearning to Detect(LoD)を提案します。このフレームワークには、安全指向の表現学習のためのマルチモードセーフティコンセプトアクティベーションベクトルモジュールと、非マップ攻撃分類のためのセーフティパターンオートエンコーダモジュールが含まれています。さまざまな実験を通して、提案された方法は、さまざまな未知の攻撃に対して一貫して高い検出AUROCを達成し、効率を向上させたことを確認しました。