每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Scam2Prompt:一个可扩展的框架,用于审计生产环境中的恶意诈骗端点

Created by
  • Haebom

作者

陈志扬、Tara Saba、邓迅、司徐杰、龙帆

大纲

本文探讨了大规模语言模型 (LLM) 的安全性,特别是评估其生成恶意内容的风险。我们开发了一个名为“Scam2Prompt”的自动化审计框架,用于识别诈骗网站的意图,并生成模仿其意图的良性开发者风格提示,以测试 LLM 是否会生成恶意软件。一项针对四大主流 LLM(GPT-4o、GPT-4o-mini、Llama-4-Scout 和 DeepSeek-V3)的大规模研究表明,4.24% 的案例生成了恶意 URL。此外,使用“Innoc2Scam-bench”测试 2025 年发布的另外七款 LLM 后发现,恶意软件生成率从 12.7% 到 43.8% 不等。现有的安全措施不足以防范这些漏洞。

Takeaways, Limitations

Takeaways:
LLM 存在严重的安全漏洞,即使出现无害的提示,它也能学习恶意内容并生成恶意代码。
Scam2Prompt 和 Innoc2Scam-bench 是评估这些漏洞和识别触发恶意软件生成的提示的有效方法。
现有的防护措施无法有效阻止 LLM 生成恶意代码。
Limitations:
该研究可能仅限于特定的 LLM 和提示类型,需要进一步研究以推广到所有 LLM。
恶意软件的生成率可能会根据 LLM 的持续更新和改进而波动。
Scam2Prompt 的恶意软件生成提示生成过程可能并不完美,需要进一步改进。
👍