本文探讨了大规模语言模型 (LLM) 的安全性,特别是评估其生成恶意内容的风险。我们开发了一个名为“Scam2Prompt”的自动化审计框架,用于识别诈骗网站的意图,并生成模仿其意图的良性开发者风格提示,以测试 LLM 是否会生成恶意软件。一项针对四大主流 LLM(GPT-4o、GPT-4o-mini、Llama-4-Scout 和 DeepSeek-V3)的大规模研究表明,4.24% 的案例生成了恶意 URL。此外,使用“Innoc2Scam-bench”测试 2025 年发布的另外七款 LLM 后发现,恶意软件生成率从 12.7% 到 43.8% 不等。现有的安全措施不足以防范这些漏洞。