本論文は、敵対的攻撃の伝達の可能性の根本的な区別を提案する。画像分類器間の敵対的な例遷移と言語モデルとの間のテキスト脱獄転移は成功し、最近の研究では、ビジョンと言語モデル(VLM)間の画像脱獄転移は成功しないことに注意してください。この違いを説明するために、著者は、攻撃の伝達可能性が入力データ空間での攻撃に限定され、モデル表現空間での攻撃は幾何学的整列なしでは伝達されないという仮説を提示する。この仮説は、数学的証明、表現空間攻撃、データ空間攻撃、VLMの潜在的な幾何学的構造分析によって裏付けられています。結論として、敵対攻撃の配信可能性は、すべての攻撃に固有の属性ではなく、共有データスペースとモデルのユニークな表現スペースという動作領域に依存することを明らかにします。