每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

数据和上下文至关重要:迈向基于人工智能的软件漏洞检测的普及

Created by
  • Haebom

作者

Rijha Safdar、Danyail Mateen、Syed Taha Ali、M. Umer Ashfaq、Wajahat Hussain

大纲

尽管基于人工智能的漏洞检测解决方案展现出令人瞩目的性能,但它们在未知代码库上的泛化性能却并不一致。本文探讨了模型架构、参数配置和训练数据质量对系统泛化能力的影响。为此,我们引入了 VulGate,这是一个高质量、最先进的数据集,它通过移除错误分类和重复样本、更新新漏洞、合并额外元数据、集成复杂样本以及包含专用测试集来弥补先前数据集的不足。我们进行了一系列实验,证明数据集多样性和质量的提升显著提升了漏洞检测能力。我们还引入并测试了几个仅使用编码器和解码器的模型。我们发现,基于编码器的模型在准确率和泛化能力方面优于其他模型。该模型在基准 BigVul 数据集上的召回率提高了 6.8%,并且在未知项目上的表现优于其他模型,展现出更强的泛化能力。这些发现强调了数据质量和模型选择在开发稳健的漏洞检测系统中的重要性,并为未来开发跨项目高效系统指明了方向。

Takeaways, Limitations

Takeaways:
提高数据集的质量和多样性可以显著提高漏洞检测性能和泛化能力。
基于编码器的模型在准确性和泛化方面优于其他模型。
本研究的结果强调了数据质量和模型选择在开发强大的漏洞检测系统中的重要性。
它代表了未来系统开发的方向,具有较高的跨项目效率。
Limitations:
论文中没有具体说明 Limitations(摘要中没有显示)。
👍