Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Prétraitement sémantique pour l'analyse des logiciels malveillants basée sur LLM

Created by
  • Haebom

Auteur

Benjamin Marais, Tony Quertier, Grégoire Barrue

Contour

Dans le domaine de l'analyse des logiciels malveillants, les approches basées sur l'IA sont efficaces pour traiter de grandes quantités de données, mais présentent des limites : elles se concentrent uniquement sur les données elles-mêmes (images, séquences) sans tenir compte du point de vue des experts. Dans cet article, nous proposons une méthode de prétraitement qui s'appuie sur les connaissances des experts pour améliorer l'analyse sémantique des logiciels malveillants et l'interprétabilité des résultats. Nous présentons une nouvelle méthode de prétraitement qui génère des rapports JSON pour les fichiers exécutables portables, intégrant des capacités d'analyse statique et dynamique, la détection des signatures de packers et les connaissances de MITRE ATT&CK et du Malware Behavior Catalog (MBC). Ce prétraitement vise à accroître l'explicabilité des modèles d'IA en collectant des représentations sémantiques de fichiers binaires compréhensibles par les analystes de logiciels malveillants. Nous avons entraîné un modèle de langage à grande échelle à l'aide de la méthode de prétraitement proposée et obtenu un score F1 moyen pondéré de 0,94 sur un ensemble de données complexe reflétant le marché réel.

Takeaways, Limitations

Takeaways:
Nous démontrons que le prétraitement basé sur les connaissances des experts peut améliorer la précision et l’interprétabilité de l’analyse des logiciels malveillants.
Atteindre des performances élevées dans la classification des logiciels malveillants à l'aide de modèles linguistiques à grande échelle.
Fournit des moyens d’exploiter efficacement les bases de connaissances existantes telles que MITRE ATT&CK et MBC.
Générer des représentations sémantiques compréhensibles pour les analystes de logiciels malveillants.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralité de la méthode de prétraitement proposée et son applicabilité à d’autres types de logiciels malveillants.
Possibilité de biais de performance en fonction des caractéristiques de l'ensemble de données utilisé.
Limitations possibles en raison de la dépendance à des packers ou des actions spécifiques.
Des recherches supplémentaires sont nécessaires sur l’explicabilité des modèles linguistiques à grande échelle.
👍