Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Primus: A Pioneering Collection of Open-Source Datasets for Cyber​​security LLM トレーニング

Created by
  • Haebom

作者

Yao-Ching Yu, Tsun-Han Chiang, Cheng-Wei Tsai, Chien-Ming Huang, Wen-Kwang Tsao

概要

大規模言語モデル(LLM)は、サイバーセキュリティの分野で高品質の事前訓練データ不足の問題を解決するために、事前訓練、命令微調整、および推論蒸留を含む主要な訓練段階にわたる包括的なデータセットを提示します。幅広い分析研究により、パブリックサイバーセキュリティベンチマークでデータセットの効果が実証され、データセットを使用した継続的な事前トレーニングが集計スコアで15.9%向上し、推論蒸留がセキュリティ認証(CISSP)で15.8%向上をもたらすことが示されます。すべてのデータセットとトレーニングされたサイバーセキュリティLLMをODC-BYおよびMITライセンスの下で公開することで研究を促進します。

Takeaways、Limitations

サイバーセキュリティLLM研究のための高品質のオープンソースデータセットを提供
継続的な事前訓練と推論蒸留によるサイバーセキュリティベンチマーク性能の向上を実証
すべてのデータセットとモデルの重みを公開することで研究のアクセシビリティを向上
論文の具体的なLimitationsは提示されていない
👍