每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

主动攻击:通过自适应环境对 LLM 进行红队攻击

Created by
  • Haebom

作者

Taeyoung Yun、Pierre-Luc St-Charles、Jinkyoo Park、Yoshua Bengio、Minsu Kim

大纲

我们致力于解决生成多样化攻击提示的问题,这些提示会诱发有害行为,从而对大规模语言模型 (LLM) 进行安全微调。我们并非手动设计提示,而是使用强化学习 (RL) 作为奖励,并使用毒性分类器来训练攻击者 LLM,以自动生成这些提示。受鼓励自适应探索的主动学习范式的启发,本文提出了“主动攻击”,这是一种基于 RL 的新型红队算法,可以随着受害者的演变而调整攻击策略。主动攻击是一个简单的即插即用模块,可与现有的 RL 目标无缝集成。它的表现优于现有的基于 RL 的方法(包括 GFlowNets、PPO 和 REINFORCE),与之前最先进的 GFlowNets 相比,交叉攻击的成功率从 0.07% 提升至 31.28%(计算量增加了 6%)。

Takeaways, Limitations

Takeaways:
自动生成各种攻击提示,可用于微调 LLM 的安全性。
与现有的基于 RL 的方法相比,它表现出了更优异的性能(比 GFlowNets 提高了 400 倍以上)。
主动攻击是简单的即插即用模块,可以轻松集成到现有的 RL 目标中。
微调受害者的安全性以鼓励攻击者不断寻找新的漏洞。
从易到难的渐进式探索课程。
逐步发现各种局部攻击模式,并将它们结合起来,覆盖广泛的多模式分布。
Limitations:
论文中没有具体提及Limitations。
👍