每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

基于 LLM 的恶意软件分析的语义预处理

Created by
  • Haebom

作者

本杰明·马莱斯、托尼·奎尔蒂埃、格雷戈瓦尔·巴鲁

大纲

在恶意软件分析领域,本文指出了现有基于人工智能的方法的局限性,这些方法侧重于数据表示(图像、序列),而没有考虑专家的观点。为了改进这一点,我们提出了一种以专家知识为中心的预处理方法,以增强恶意软件语义分析和结果的可解释性。具体而言,我们提出了一种新颖的预处理方法,可以为可移植可执行 (PE) 文件生成 JSON 报告。该报告收集了从静态和动态分析中提取的特征,并整合了来自加壳程序签名检测、MITRE ATT&CK 和恶意软件行为目录 (MBC) 的知识。此预处理的目标是收集恶意软件分析人员可理解的二进制文件语义表示,并增强用于恶意软件分析的人工智能模型的可解释性。利用此预处理,我们训练了一个用于恶意软件分类的大规模语言模型,在代表市场现实的复杂数据集上实现了 0.94 的加权平均 F1 分数。

Takeaways,Limitations

Takeaways:
一种利用专家知识的新型预处理方法:通过 PE 文件的 JSON 报告改进恶意软件分析的语义表示。
提升AI模型的可解释性:融合专家知识,增强AI模型的可解释性。
实现了高性能:在复杂数据集上实现了 0.94 的加权平均 F1 分数。
Limitations:
单独提供的信息并不能提供对预处理方法具体实现的深入理解。
对其他恶意软件格式(例如 Shellcode、脚本等)的可扩展性有限。
由于结果针对特定数据集,因此具有概括限制。
👍