Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Semantic Preprocessing for LLM-based Malware Analysis

Created by
  • Haebom

作者

Benjamin Marais, Tony Quertier, Gr egoire Barrue

概要

悪意のあるコード分析の分野では、AIベースのアプローチは大量のデータ処理に効果的ですが、専門家の視点を考慮せずにデータ自体(画像、シーケンス)に集中する限界があります。本論文では、専門家の知識を活用した前処理方法を提案し、悪性コードの意味分析と結果解析力を向上させる。 Portable Executableファイル用のJSONレポートを生成する新しい前処理方法を提示します。これは、静的および動的分析機能、パッカー署名検出、MITRE ATT&CK、およびMalware Behavior Catalog(MBC)の知識を統合します。この前処理は、マルウェアアナリストが理解できるバイナリファイルの意味論的表現を収集し、AIモデルの説明の可能性を高めることを目的としています。提案された前処理法を使用して大規模言語モデルを訓練した結果、実際の市場を反映する複雑なデータセットで0.94の加重平均F1スコアを達成しました。

Takeaways、Limitations

Takeaways:
専門家の知識ベースの前処理は、マルウェア分析の精度と解釈力を向上させることができることを示しています。
大規模な言語モデルを活用したマルウェア分類で高い性能を達成。
MITRE ATT&CKやMBCなどの既存の知識ベースを効果的に活用する方法を提示します。
マルウェアアナリストのための理解可能な意味論的表現の生成。
Limitations:
提案された前処理方法の一般性および他の種類のマルウェアに対する適用性に関するさらなる研究が必要である。
使用されるデータセットの特性に応じた性能偏向の可能性。
特定のパッカーまたは行為への依存性による限界の存在の可能性。
大規模言語モデルの記述可能性に関するさらなる研究の必要性
👍