每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

JALMBench:音频语言模型中的越狱漏洞基准测试

Created by
  • Haebom

作者

彭子凡、刘雨乐、孙震、李明晨、罗泽仁、郑静怡、董文瀚、何新磊、王雪超、薛英杰、徐胜民、黄心怡

大纲

我们推出了 JALMBench,这是一个用于评估音频语言模型 (ALM) 安全性的综合基准测试。JALMBench 包含一个包含 11,316 个文本样本和 245,355 个音频样本(超过 1,000 小时)的数据集,支持 12 种主要的 ALM、四种基于文本的攻击方法、四种基于音频的攻击方法和五种防御方法。我们使用 JALMBench 对攻击有效性、主题敏感度、语音多样性和架构进行深入分析,并探索提示和响应级别的攻击缓解策略。

Takeaways,Limitations

Takeaways:
有助于识别 ALM 中的潜在安全漏洞。
提供一个用于比较和评估各种攻击方法和防御策略的综合框架。
提出提高ALM安全性的研究方向。
Limitations:
未知(论文摘要中未提及Limitations)。
👍