悪意のあるコード分析の分野では、AIベースのアプローチは大量のデータ処理に効果的ですが、専門家の視点を考慮せずにデータ自体(画像、シーケンス)に集中する限界があります。本論文では、専門家の知識を活用した前処理方法を提案し、悪性コードの意味分析と結果解析力を向上させる。 Portable Executableファイル用のJSONレポートを生成する新しい前処理方法を提示します。これは、静的および動的分析機能、パッカー署名検出、MITRE ATT&CK、およびMalware Behavior Catalog(MBC)の知識を統合します。この前処理は、マルウェアアナリストが理解できるバイナリファイルの意味論的表現を収集し、AIモデルの説明の可能性を高めることを目的としています。提案された前処理法を使用して大規模言語モデルを訓練した結果、実際の市場を反映する複雑なデータセットで0.94の加重平均F1スコアを達成しました。