每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

理解对抗性迁移:为什么表征空间攻击会失败而数据空间攻击却能成功

Created by
  • Haebom

作者

伊莎·古普塔、瑞兰·谢弗、约书亚·卡兹丹、刘肯子宇、桑米·科耶霍

大纲

本文提出了对抗性攻击可迁移性的根本区别。虽然图像分类器之间的对抗性示例迁移和语言模型之间的文本渗透能够成功,但最近的研究表明,视觉语言模型 (VLM) 之间的图像渗透并不成功。为了解释这一差异,作者假设攻击的可迁移性仅限于输入数据空间中的攻击,而模型表示空间中的攻击在没有几何对齐的情况下无法迁移。该假设得到了数学证明、表示空间攻击、数据空间攻击以及 VLM 潜在几何结构的分析的支持。最终,他们表明对抗性攻击的可迁移性并非所有攻击的固有属性,而是取决于它们的操作域:共享数据空间和模型的独特表示空间。

Takeaways,Limitations

Takeaways:
对抗性攻击的可传递性取决于攻击所处的空间(数据空间与表示空间)。
为了提高模型的稳健性,防御共享数据空间中的攻击非常重要。
对齐 VLM 的潜在几何结构也可以传输表示空间攻击。
Limitations:
本文提出的数学证明是在简单的环境中完成的。
需要进一步研究表达空间攻击的可转移性。
目前还没有针对 VLM 潜在空间对齐提出具体的方法。
👍