本文提出了对抗性攻击可迁移性的根本区别。虽然图像分类器之间的对抗性示例迁移和语言模型之间的文本渗透能够成功,但最近的研究表明,视觉语言模型 (VLM) 之间的图像渗透并不成功。为了解释这一差异,作者假设攻击的可迁移性仅限于输入数据空间中的攻击,而模型表示空间中的攻击在没有几何对齐的情况下无法迁移。该假设得到了数学证明、表示空间攻击、数据空间攻击以及 VLM 潜在几何结构的分析的支持。最终,他们表明对抗性攻击的可迁移性并非所有攻击的固有属性,而是取决于它们的操作域:共享数据空间和模型的独特表示空间。