每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过大型语言模型重建差异隐私文本清理

Created by
  • Haebom

作者

庞树超、路志刚、王海辰、付鹏、周永斌、薛民辉

大纲

本文证明,即使文本使用了差分隐私 (DP) 技术,大规模语言模型 (LLM) 也能重建个人信息。研究人员根据 LLM 的可访问性,提出了两种攻击方式:黑盒攻击和白盒攻击。他们通过实验证明了差分隐私处理后的文本与隐私保护 LLM 训练数据之间的关联。实验使用各种 LLM(包括 LLaMA-2、LLaMA-3 和 ChatGPT)以及 WikiMIA 和 Pile-CC 等数据集,对词级和句级 DP 进行了测试,结果证实了较高的重建成功率。例如,在 WikiMIA 数据集上,对词级 DP 的黑盒攻击成功率分别为:LLaMA-2 (70B) 72.18%、LLaMA-3 (70B) 82.39%、ChatGPT-4o 91.2% 和 Claude-3.5 94.01%。这揭示了现有 DP 技术的安全漏洞,并表明 LLM 本身构成了新的安全威胁。

Takeaways, Limitations

Takeaways:
揭示现有差异隐私(DP)技术的局限性。
我们认为大规模语言模型(LLM)可能成为个人信息泄露的新途径。
提出了改进 DP 技术和针对利用 LLM 的攻击的新防御策略的需求。
通过在各种 LLM 和数据集上的实验结果展示了普遍性。
Limitations:
需要进一步研究来确定所提出的攻击技术的有效性及其在现实环境中的适用性。
需要开发更强大的DP技术或针对LLM的防御技术。
由于这些是针对特定 LLM 和数据集的实验结果,因此将它们推广到其他 LLM 或数据集存在局限性。
缺乏对个人信息泄露实际案例的分析和核实。
👍