Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Réexamen des modèles de langage pré-entraînés pour la détection des vulnérabilités

Created by
  • Haebom

Auteur

Youpeng Li, Weiliang Qi, Xuyu Wang, Fuxun Yu, Xinda Wang

Contour

Cet article présente une étude approfondie de RevisitVD, un modèle de langage pré-entraîné (PLM) pour la détection de vulnérabilités (VD). À l'aide d'un ensemble de données nouvellement construit, nous comparons les approches de réglage fin et d'ingénierie rapide de 17 PLM (dont des PLM à petite échelle, spécifiques au code, et des PLM à grande échelle). Nous évaluons leur efficacité dans différents contextes d'apprentissage et de test, leur capacité de généralisation et leur robustesse à la normalisation, à l'abstraction et aux transformations sémantiques du code. Nous constatons qu'un PLM intégrant une tâche pré-entraînée conçue pour capturer les schémas syntaxiques et sémantiques du code surpasse les PLM à usage général ou les PLM pré-entraînés ou affinés uniquement sur de grands corpus de code. Cependant, nous constatons également qu'il présente des difficultés dans des scénarios réels, tels que la détection de vulnérabilités avec des dépendances complexes, la gestion des modifications dues à la normalisation et à l'abstraction du code, et l'identification des transformations de code sémantiquement vulnérables. Nous soulignons également que la fenêtre contextuelle limitée du PLM peut entraîner d'importantes erreurs d'étiquetage dues à la troncature.

Takeaways, Limitations_

Takeaways: Nous démontrons qu'une préformation prenant en compte les schémas syntaxiques et sémantiques du code est essentielle pour améliorer les performances des environnements virtuels. Nous soulignons l'importance de l'évaluation PLM pour les applications virtuelles réelles.
Limitations : L'application de ce concept à des scénarios réels présente des difficultés, notamment en raison de vulnérabilités liées à des dépendances complexes, de transformations de code et d'erreurs d'étiquetage dues à des fenêtres contextuelles limitées. Des suggestions d'amélioration sont nécessaires pour garantir une application concrète du PLM.
👍