在恶意软件分析领域,本文指出了现有基于人工智能的方法的局限性,这些方法侧重于数据表示(图像、序列),而没有考虑专家的观点。为了改进这一点,我们提出了一种以专家知识为中心的预处理方法,以增强恶意软件语义分析和结果的可解释性。具体而言,我们提出了一种新颖的预处理方法,可以为可移植可执行 (PE) 文件生成 JSON 报告。该报告收集了从静态和动态分析中提取的特征,并整合了来自加壳程序签名检测、MITRE ATT&CK 和恶意软件行为目录 (MBC) 的知识。此预处理的目标是收集恶意软件分析人员可理解的二进制文件语义表示,并增强用于恶意软件分析的人工智能模型的可解释性。利用此预处理,我们训练了一个用于恶意软件分类的大规模语言模型,在代表市场现实的复杂数据集上实现了 0.94 的加权平均 F1 分数。