本文介绍了一种新型防御框架——CurvaLID,用于高效检测威胁大规模语言模型 (LLM) 安全部署的对抗性提示。CurvaLID 利用文本提示的几何特征来检测对抗性提示,并适用于各种对抗性提示和 LLM 架构,无论 LLM 的类型如何。CurvaLID 通过 Whewell 方程将曲率的概念扩展到 n 维词嵌入空间,从而量化局部几何属性,例如语义变异和曲率。它还利用局部本征维度 (LID) 来捕捉对抗子空间内文本提示的互补几何特征。实验结果表明,CurvaLID 在对抗性提示和普通提示之间表现出明显的几何差异,其性能优于现有检测器。