每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

当风格打破安全:保护法学硕士免受肤浅风格一致性的侵害

Created by
  • Haebom

作者

肖雨馨、Sana Tonekaboni、Walter Gerych、Vinith Suriyakumar、Marzyeh Ghassemi

大纲

本文探讨了大规模语言模型 (LLM) 可能被包含特定样式(例如,列表形式)的恶意查询触发这一问题。现有的越狱研究主要集中在为这些查询添加额外的字符串转换,以最大化攻击成功率 (ASR)。本研究探讨了与原始查询的恶意意图在语义上无关的样式模式对 LLM 安全性的影响。我们定义了 ASR 膨胀(由于现有越狱基准查询中的样式模式导致的 ASR 增加),并评估了 7 个基准测试中的 32 个 LLM,发现几乎所有模型都存在 ASR 膨胀现象。此外,我们证明了 LLM 对样式模式的相对兴趣与膨胀相关,并且样式一致性使 LLM 更容易受到特定样式越狱的攻击。最后,我们提出了 SafeStyle,这是一种防御策略,它结合了少量经过增强以匹配样式模式分布的安全训练数据。 SafeStyle 在三个 LLM、六个微调风格设置和两个真实世界教学训练数据集中,在维持 LLM 安全性方面始终优于基线模型。

Takeaways,Limitations

Takeaways:
LLM 容易受到查询中的样式模式的影响,这会增加 ASR。
LLM 对风格模式的相对兴趣与 ASR 膨胀有关。
对特定风格进行微调会增加模型对该风格越狱的脆弱性。
SafeStyle 是一种有效的防御策略,通过结合风格模式的安全训练数据来提高 LLM 的安全性。
Limitations:
研究可能仅限于特定的 LLM 和越狱基准。
SafeStyle 的有效性可能因您的训练数据和风格模式的具体情况而异。
需要对普遍性进行进一步研究。
👍