本文证明,即使文本使用了差分隐私 (DP) 技术,大规模语言模型 (LLM) 也能重建个人信息。研究人员根据 LLM 的可访问性,提出了两种攻击方式:黑盒攻击和白盒攻击。他们通过实验证明了差分隐私处理后的文本与隐私保护 LLM 训练数据之间的关联。实验使用各种 LLM(包括 LLaMA-2、LLaMA-3 和 ChatGPT)以及 WikiMIA 和 Pile-CC 等数据集,对词级和句级 DP 进行了测试,结果证实了较高的重建成功率。例如,在 WikiMIA 数据集上,对词级 DP 的黑盒攻击成功率分别为:LLaMA-2 (70B) 72.18%、LLaMA-3 (70B) 82.39%、ChatGPT-4o 91.2% 和 Claude-3.5 94.01%。这揭示了现有 DP 技术的安全漏洞,并表明 LLM 本身构成了新的安全威胁。