每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Checkpoint-GCG:审计和攻击基于微调的即时注入防御

Created by
  • Haebom

作者

杨晓雪、Bozhidar Stevanoski、Matthieu Meeus、Yves-Alexandre de Montjoye

大纲

本文探讨了针对大规模语言模型 (LLM) 的即时注入攻击,并提出了 Checkpoint-GCG,这是一种利用基于微调的防御技术漏洞的新型攻击技术。Checkpoint-GCG 利用微调过程中生成的中间模型检查点来最大化攻击效率。我们的研究表明,Checkpoint-GCG 能够有效抵御最先进的防御技术,并且适用于未知输入和其他模型。

Takeaways, Limitations

Takeaways:
我们识别了基于微调的防御技术中的漏洞,并提出了一种评估模型对攻击的脆弱性的新方法。
Checkpoint-GCG 已被证明能够以很高的成功率绕过防御技术,并且有助于评估防御系统的稳健性。
即使使用看不见的输入和黑盒模型,攻击也能成功,证明了攻击的普遍性。
Limitations:
攻击需要访问中间模型检查点,这在现实环境中可能会受到限制。
在所有环境中,攻击成功率并非都是 100%,这表明需要不断改进防御技术。
模型之间的可转移性可能有限,需要进一步研究其他模型和防御技术。
👍