每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Primus:网络安全法学硕士 (LLM) 培训的先驱开源数据集集合

Created by
  • Haebom

作者

余耀庆、蒋俊汉、蔡政伟、黄建明、曹文光

大纲

为了解决网络安全领域缺乏高质量预训练数据的问题,我们提供了一个涵盖关键训练阶段的全面数据集,包括预训练、指令微调和推理蒸馏。大量的分析研究证明了该数据集在公共网络安全基准测试中的有效性,结果表明,使用该数据集进行持续预训练可使总分提高 15.9%,推理蒸馏可使安全认证 (CISSP) 分数提高 15.8%。为了鼓励研究,我们根据开放数据收集章程 (ODC-BY) 和 MIT 许可证发布整个数据集和经过训练的网络安全 LLM 分数。

Takeaways,Limitations

为网络安全法学硕士研究提供高质量的开源数据集。
通过持续的预训练和推理提炼展示改进的网络安全基准性能。
通过公开所有数据集和模型权重来提高研究的可访问性。
没有提供该论文的具体Limitations。
👍