我们致力于解决生成多样化攻击提示的问题,这些提示会诱发有害行为,从而对大规模语言模型 (LLM) 进行安全微调。我们并非手动设计提示,而是使用强化学习 (RL) 作为奖励,并使用毒性分类器来训练攻击者 LLM,以自动生成这些提示。受鼓励自适应探索的主动学习范式的启发,本文提出了“主动攻击”,这是一种基于 RL 的新型红队算法,可以随着受害者的演变而调整攻击策略。主动攻击是一个简单的即插即用模块,可与现有的 RL 目标无缝集成。它的表现优于现有的基于 RL 的方法(包括 GFlowNets、PPO 和 REINFORCE),与之前最先进的 GFlowNets 相比,交叉攻击的成功率从 0.07% 提升至 31.28%(计算量增加了 6%)。