每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

机器学习用于检测和分析新型 LLM 越狱

Created by
  • Haebom

作者

约翰·霍金斯、阿迪亚·普拉玛、罗德尼·比尔德、罗希塔什·钱德拉

大纲

大规模语言模型 (LLM) 存在漏洞,允许恶意用户操纵输入文本以引发非预期响应。这些越狱提示旨在诱使 LLM 绕过旨在根据开发者策略确保响应可接受的安全护栏。在本研究中,我们分析了不同机器学习模型区分越狱提示和实际使用情况的能力,包括采用前所未见策略的越狱。结果表明,使用当前数据集端到端微调双向 Transformer (BERT) 模型以识别越狱可获得最佳性能。我们将区分越狱提示和实际提示的关键词可视化,并得出结论:提示结构中的显式反身性可以指示越狱意图。

Takeaways, Limitations

对 BERT 模型进行微调,可以在识别越狱提示方面获得最有效的性能。
提示结构中的明确反身性可以表明越狱意图。
该研究是基于当前数据集进行的,对新越狱策略的普遍性可能有限。
👍