本文重点介绍了当前 LLM 反学习方法的一个安全漏洞,即易受“重学习”攻击。我们证明,现有方法会从损失函数图中的尖锐极小值中诱导模型参数,从而产生不稳定区域,这些区域只需少量微调数据即可轻松恢复。为了解决这个问题,我们提出了 StableUN,这是一个双层反馈引导的优化框架,它通过邻域感知优化来探索更稳定的参数区域。StableUN 集成了遗忘反馈(使用对抗扰动探索参数邻域)和记忆反馈(保留模型效用),通过梯度投影将这两个目标对齐。在 WMDP 和 MUSE 基准测试中,我们证明 StableUN 在保持竞争性效用性能的同时,展现出更强的抗重学习和越狱攻击能力。