每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

超越尖锐极小值:通过反馈引导的多点优化实现稳健的 LLM 反学习

Created by
  • Haebom

作者

吴文汉、刘哲元、高重阳、王仁、丁凯泽

StableUN:通过邻域感知优化实现稳健的去学习

大纲

本文重点介绍了当前 LLM 反学习方法的一个安全漏洞,即易受“重学习”攻击。我们证明,现有方法会从损失函数图中的尖锐极小值中诱导模型参数,从而产生不稳定区域,这些区域只需少量微调数据即可轻松恢复。为了解决这个问题,我们提出了 StableUN,这是一个双层反馈引导的优化框架,它通过邻域感知优化来探索更稳定的参数区域。StableUN 集成了遗忘反馈(使用对抗扰动探索参数邻域)和记忆反馈(保留模型效用),通过梯度投影将这两个目标对齐。在 WMDP 和 MUSE 基准测试中,我们证明 StableUN 在保持竞争性效用性能的同时,展现出更强的抗重学习和越狱攻击能力。

Takeaways,Limitations

Takeaways:
提出了一种新方法来解决 LLM 忘记的核心安全漏洞。
确保有效防御重学习攻击
在有效保留模型效用的同时进行反学习。
通过邻域感知优化探索更稳定的参数空间
Limitations:
需要在 WMDP 和 MUSE 基准以外的数据集和模型上进行验证。
计算复杂度和训练时间的潜在增加
由于对抗扰动设置和调整而导致的性能变化
👍