每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

无需偷看即可进行调整:LLM 后训练的可证明隐私和泛化界限

Created by
  • Haebom

作者

伊斯梅尔·拉比亚德、马图林·维多、马蒂厄·科瓦尔斯基、马克·舍纳尔、亚历山德罗·莱特、朱莉娅·肯佩、奥利维尔·泰托

大纲

本文介绍了一种用于训练后大型语言模型 (LLM) 的进化黑盒方法 BBoxER。BBoxER 通过隐式压缩训练数据来引入信息瓶颈,从而在数据访问受限、存在对抗性威胁和过拟合问题的环境中实现高效且可扩展的训练。BBoxER 在差分隐私、抵御数据中毒攻击和提取攻击方面提供了强大的理论保证。我们在 LLM 实验中展示了其性能提升、在基准数据集上的泛化能力以及抵御成员推理攻击的鲁棒性。

Takeaways, Limitations

Takeaways:
使用黑盒优化方法增强 LLM 培训中的隐私和安全性。
为抵御差异隐私、数据中毒攻击和提取攻击提供理论保障。
展示 BBoxER 在 LLM 中的改进性能和泛化性能。
证明适合在受限或隐私敏感的环境中部署。
Limitations:
黑盒方法的可扩展性和计算难度。
👍