每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

针对 LLM 废除攻击的令人尴尬的简单防御

Created by
  • Haebom

作者

Harethah Abu Shairah、Hasan Abed Al Kader Hammoud、Bernard Ghanem、George Turkiyyah

大纲

大规模语言模型 (LLM) 通常通过安全的微调来对齐以拒绝有害指令。最近的一种攻击——消除攻击 (abliteration),允许模型通过识别和抑制导致拒绝行为的单个潜在方向来生成有害内容。本文提出了一种防御技术,从根本上改变了模型表达拒绝的方式。我们构建了一个扩展的拒绝数据集,其中对有害提示的响应在拒绝之前提供详细的解释,并将拒绝信号分布在多个 token 位置上。在此数据集上对 Llama-2-7B-Chat 和 Qwen2.5-Instruct(参数 1.5B 和 3B)进行微调,可以生成一个在消除攻击下保持高拒绝率的模型。与传统模型的 70-80% 相比,该模型的拒绝率降低了高达 10%。全面的安全性和可用性评估表明,扩展的拒绝微调可以有效中和消除攻击,同时保持模型的一般性能并提高在多种对齐场景下的鲁棒性。

Takeaways,Limitations

Takeaways:
提出一种针对消除攻击的有效防御技术:利用扩展的拒绝数据集改进模型的拒绝机制。
在消除攻击下保持高拒绝率:与现有模型相比,尽量减少拒绝率的降低。
保持安全性和可用性:在不损害一般模型性能的情况下防御攻击。
适用于各种模型架构:成功应用于Llama-2-7B-Chat和Qwen2.5-Instruct模型。
Limitations:
防御消除攻击的有效性可能仅限于特定的模型和设置:需要进一步研究以确定它们对其他模型或攻击方法的普遍性。
构建扩展拒绝数据集的额外数据采集和处理要求。
缺乏针对性能提升、鲁棒性增强的具体机制分析。
👍