本文强调,由于大规模语言模型 (LLM) 在软件工程中的应用日益广泛,对生成代码进行严格的安全评估的需求日益增长。现有的基准测试与现实世界的人工智能辅助编程场景缺乏关联,不足以评估人工智能生成代码在实际操作环境中可能带来的实际安全风险。为了解决这个问题,本文提出了人工智能代码生成安全评估 (ASE),这是一个存储库级的评估基准,旨在准确反映现实世界的人工智能编程任务。ASE 提供了一个全面可靠的框架来评估人工智能生成代码的安全性。ASE 对领先 LLM 的评估结果表明,当前的 LLM 仍然难以实现安全编码。存储库级场景的复杂性给 LLM 带来了挑战,而 LLM 通常在代码片段级任务上表现良好。此外,更大的推理预算并不一定能带来更好的代码生成效果。这些观察结果为人工智能代码生成的现状提供了宝贵的见解,并帮助开发人员确定最适合实际任务的模型。它们也为改进 LLM 以在实际应用中生成安全高效的代码奠定了基础。