每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

使用 ASCII 艺术逃避毒性检测:对审核系统进行空间攻击的基准

Created by
  • Haebom

作者

谢尔盖·贝雷津、礼萨·法拉巴赫什、诺埃尔·克雷斯皮

大纲

本文提出了一种针对恶意检测模型的新型对抗攻击方法,该方法利用了语言模型在解释 ASCII 艺术格式的空间结构化文本方面存在的漏洞。我们提出了 ToxASCII,这是一个用于评估恶意检测系统对视觉混淆输入的鲁棒性的基准测试。我们证明 ToxASCII 在各种最先进的大规模语言模型和专用审核工具上都实现了完美的攻击成功率 (ASR),从而暴露了当前纯文本审核系统的一个严重漏洞。

Takeaways, Limitations

Takeaways:通过证明使用 ASCII 图像的对抗性攻击对毒性检测模型非常有效,我们清楚地揭示了现有基于文本的毒性检测系统的漏洞。这凸显了开发考虑视觉信息的新型毒性检测技术的必要性。ToxASCII 基准测试可以成为评估未来毒性检测模型稳健性的有用工具。
Limitations:此攻击方法仅限于 ASCII 码,其对抗其他混淆技术的有效性尚未得到验证。需要进一步研究以确定其在实际在线环境中的适用性和有效性。此外,还需要进一步验证 ToxASCII 基准的通用性和普遍性。
👍