Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Understanding Adversarial Transfer: Why Representation-Space Attacks Fail Where Data-Space Attacks Succeed

Created by
  • Haebom

作者

Isha Gupta、Rylan Schaeffer、Joshua Kazdan、Ken Ziyu Liu、Sanmi Koyejo

概要

本論文は、敵対的攻撃の伝達の可能性の根本的な区別を提案する。画像分類器間の敵対的な例遷移と言語モデルとの間のテキスト脱獄転移は成功し、最近の研究では、ビジョンと言語モデル(VLM)間の画像脱獄転移は成功しないことに注意してください。この違いを説明するために、著者は、攻撃の伝達可能性が入力データ空間での攻撃に限定され、モデル表現空間での攻撃は幾何学的整列なしでは伝達されないという仮説を提示する。この仮説は、数学的証明、表現空間攻撃、データ空間攻撃、VLMの潜在的な幾何学的構造分析によって裏付けられています。結論として、敵対攻撃の配信可能性は、すべての攻撃に固有の属性ではなく、共有データスペースとモデルのユニークな表現スペースという動作領域に依存することを明らかにします。

Takeaways、Limitations

Takeaways:
敵対攻撃の配信可能性は、攻撃が機能する空間(データ空間対表現空間)によって異なります。
モデルの堅牢性を高めるためには、共有データスペースでの攻撃に対する防御が重要です。
VLMの潜在的な幾何学的構造を整列させると、表現空間攻撃も移行する可能性があります。
Limitations:
論文で提示された数学的証明は単純な設定で行われた。
表現空間攻撃の転移の可能性に関するさらなる研究が必要である。
VLMの潜在空間整列方法に関する具体的な方法論は提示されていない。
👍