每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过曲率和局部本征维度进行几何引导的对抗性提示检测

Created by
  • Haebom

作者

容迦南、黄汉勋、克里斯托弗·莱基、莎拉·埃尔法尼

大纲

本文介绍了一种新型防御框架——CurvaLID,用于高效检测威胁大规模语言模型 (LLM) 安全部署的对抗性提示。CurvaLID 利用文本提示的几何特征来检测对抗性提示,并适用于各种对抗性提示和 LLM 架构,无论 LLM 的类型如何。CurvaLID 通过 Whewell 方程将曲率的概念扩展到 n 维词嵌入空间,从而量化局部几何属性,例如语义变异和曲率。它还利用局部本征维度 (LID) 来捕捉对抗子空间内文本提示的互补几何特征。实验结果表明,CurvaLID 在对抗性提示和普通提示之间表现出明显的几何差异,其性能优于现有检测器。

Takeaways, Limitations

Takeaways:
它提供了一种强大而高效的防御方案,可以以与模型无关的方式跨多个 LLM 和攻击模式进行推广。
我们提出了一种利用对抗提示的几何特性的新型检测方法。
与现有探测器相比,它表现出更优异的性能。
Limitations:
论文中没有提到具体的Limitations。
👍