每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

ASE:用于评估 AI 生成代码安全性的存储库级基准

Created by
  • Haebom

作者

连可可、王斌、张雷、陈立波、王俊杰、赵子明、杨玉九、林妙倩、段浩桐、赵浩然、廖爽、郭明达、全嘉正、钟一录、何陈浩、陈紫川、吴杰、李浩灵、李兆轩、于炯池、李慧、张东

大纲

本文强调,由于大规模语言模型 (LLM) 在软件工程中的应用日益广泛,对生成代码进行严格的安全评估的需求日益增长。现有的基准测试与现实世界的人工智能辅助编程场景缺乏关联,不足以评估人工智能生成代码在实际操作环境中可能带来的实际安全风险。为了解决这个问题,本文提出了人工智能代码生成安全评估 (ASE),这是一个存储库级的评估基准,旨在准确反映现实世界的人工智能编程任务。ASE 提供了一个全面可靠的框架来评估人工智能生成代码的安全性。ASE 对领先 LLM 的评估结果表明,当前的 LLM 仍然难以实现安全编码。存储库级场景的复杂性给 LLM 带来了挑战,而 LLM 通常在代码片段级任务上表现良好。此外,更大的推理预算并不一定能带来更好的代码生成效果。这些观察结果为人工智能代码生成的现状提供了宝贵的见解,并帮助开发人员确定最适合实际任务的模型。它们也为改进 LLM 以在实际应用中生成安全高效的代码奠定了基础。

Takeaways,Limitations

Takeaways:提出了一个新的基准 ASE,用于评估现实世界中 AI 辅助编程场景的安全性。它揭示了当前 LLM 安全代码生成功能的局限性。它分析了存储库级操作复杂性对 LLM 性能的影响。它证实了推理预算与代码生成质量之间缺乏相关性。它提出了改进 LLM 以适应现实世界应用的方法。
Limitations:需要进一步研究以确定 ASE 基准的通用性。需要进一步分析 LLM 针对各种安全漏洞的脆弱性。还需要对更广泛的 LLM 模型进行评估。
👍