每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

更少的权重,更多的问题:对 LLM 剪枝的实用攻击

Created by
  • Haebom

作者

江头一树、罗宾·斯塔布、蒂博·格洛古恩、马克·维罗、马丁·维切夫

大纲

本文首次揭示了大规模语言模型 (LLM) 中的剪枝技术可被恶意利用。我们提出了一种攻击方法,迫使剪枝前表现正常的模型在剪枝后表现出恶意行为。攻击者通过向剪枝概率较低的参数注入恶意行为,并使用剪枝概率较高的参数恢复模型来执行攻击。对 Magnitude、Wanda 和 SparseGPT 等 vLLM 提供的剪枝技术进行了广泛的实验,结果表明越狱成功率高达 95.7%,正常命令拒绝率高达 98.7%,目标内容注入成功率高达 99.5%。

Takeaways, Limitations

Takeaways:
首先发现 LLM 修剪过程中的安全漏洞。
指出模型压缩过程中缺乏安全意识。
警告在模型部署时可能会忽视安全问题。
Limitations:
没有提供具体的攻击方法和防御方法的详细信息。
所提出的攻击的普遍性及其对其他修剪技术的影响需要进一步研究。
需要额外考虑实验中使用的模型和攻击场景的多样性。
👍