每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

重新思考暴露下的精确反学习:在大型语言模型中提取精确反学习下的遗忘数据

Created by
  • Haebom

作者

吴晓宇、庞一飞、刘庭、吴志伟

大纲

本文重点探讨了反学习技术在解决大规模语言模型 (LLM) 训练数据敏感信息泄露问题上的局限性。具体而言,在反学习前后逻辑函数接口 (API) 均暴露的真实部署环境中,我们提出了一种新颖的数据提取攻击方法,利用反学习前模型的信号,从反学习后模型的已删除数据中提取模式。该攻击结合了模型引导和词法单元过滤策略,显著提高了数据提取的成功率。我们通过一个医疗诊断数据集强调了反学习技术在真实世界中的风险。本研究表明,反学习实际上可能会增加个人信息泄露的风险,并建议根据更广泛的威胁模型(包括针对反学习前模型的对抗性方法)来评估反学习技术。

Takeaways, Limitations

Takeaways:
虽然准确的反学习方法被认为是隐私的“黄金标准”,但它们在实际部署中可能存在漏洞。
使用来自预先取消学习模型的信息进行数据提取攻击是可能的,这使得即使在取消学习之后也可以恢复很大一部分已删除的数据。
该攻击的有效性也在现实世界的数据集(例如医疗诊断数据集)上得到了验证,这表明了取消学习的潜在风险。
在评估去学习技术的安全性时,必须考虑其他威胁模型,例如针对先前模型的对抗方法。
Limitations:
本研究重点关注前/后忘却逻辑 API 暴露的特定环境。
尽管数据泄露攻击的成功率有所提高,但并不能保证完全恢复已删除的数据。
需要进一步研究来确定攻击的普遍性及其对各种反学习技术的适用性。
这项研究侧重于特定的数据集和攻击技术,限制了其对其他数据集和攻击方法得出普遍结论的能力。
👍