Dans le domaine de l'analyse des logiciels malveillants, les approches basées sur l'IA sont efficaces pour traiter de grandes quantités de données, mais présentent des limites : elles se concentrent uniquement sur les données elles-mêmes (images, séquences) sans tenir compte du point de vue des experts. Dans cet article, nous proposons une méthode de prétraitement qui s'appuie sur les connaissances des experts pour améliorer l'analyse sémantique des logiciels malveillants et l'interprétabilité des résultats. Nous présentons une nouvelle méthode de prétraitement qui génère des rapports JSON pour les fichiers exécutables portables, intégrant des capacités d'analyse statique et dynamique, la détection des signatures de packers et les connaissances de MITRE ATT&CK et du Malware Behavior Catalog (MBC). Ce prétraitement vise à accroître l'explicabilité des modèles d'IA en collectant des représentations sémantiques de fichiers binaires compréhensibles par les analystes de logiciels malveillants. Nous avons entraîné un modèle de langage à grande échelle à l'aide de la méthode de prétraitement proposée et obtenu un score F1 moyen pondéré de 0,94 sur un ensemble de données complexe reflétant le marché réel.