每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

重新思考概念抹除的脆弱性及新方法

Created by
  • Haebom

作者

Alex D. Richardson、张凯程、Lucas Beerens、陈东东

大纲

文本转图像传播模型的激增引发了与版权侵权和有害图像创建相关的隐私和安全问题。为了解决这些问题,概念删除(防御)方法已被开发出来以“忘记”特定概念。然而,近期的概念恢复(攻击)方法表明,这些被删除的概念可以通过对抗性生成的提示进行恢复,这暴露了当前防御机制中的一个关键漏洞。在本研究中,我们首先探究了这种对抗性漏洞的根本原因,并揭示了这种漏洞在概念删除模型的提示嵌入空间中普遍存在,这是从原始预训练模型继承而来的特性。我们还引入了 RECORD,这是一种基于坐标下降的新型恢复算法,其性能始终优于现有恢复方法,最高可达 17.8 倍我们进行了大量的实验来评估计算性能权衡,并提出了加速策略。

Takeaways, Limitations

Takeaways:
指出概念删除防御机制的脆弱性,并强调其易受对抗性攻击。
我们发现,提示嵌入空间中的漏洞是问题的核心。
我们提出了一种名为RECORD 的新恢复算法,与现有方法相比,其性能有所提高。
计算性能权衡分析及加速策略提出。
Limitations:
摘要中未包含有关本研究的具体方法、实验设置和结果的详细信息。
关于该模型的实际适用性可能缺乏讨论。
研究范围可能仅限于特定的模型、数据集或攻击方法。
👍