Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

R2Vul : Apprendre à raisonner sur les vulnérabilités logicielles grâce à l'apprentissage par renforcement et à la distillation du raisonnement structuré

Created by
  • Haebom

Auteur

Martin Weyssow, Chengran Yang, Junkai Chen, Ratnadira Widyasari, Ting Zhang, Huihui Huang, Huu Hung Nguyen, Yan Naing Tun, Tan Bui, Yikun Li, Ang Han Wei, Frank Liauw, Eng Lieh Ouh, Lwin Khin Shar, David Lo

Contour

Cet article propose R2Vul, une nouvelle méthode de détection des vulnérabilités logicielles. R2Vul combine le retour d'information basé sur l'apprentissage par renforcement (RLAIF) et la distillation d'inférences structurées pour entraîner des LLM à code réduit afin de détecter les vulnérabilités et de générer des explications axées sur la sécurité. Contrairement aux processus de pensée et aux méthodes de réglage directif existants, R2Vul privilégie les explications fondées par rapport aux explications plausibles mais infondées grâce à RLAIF, ce qui permet des détections plus précises et des inférences de meilleure qualité. Pour soutenir RLAIF, nous avons créé le premier ensemble de données multilingue de préférences de détection des vulnérabilités, composé de 18 000 échantillons de haute qualité issus de C#, JavaScript, Java, Python et C. Dans cinq langages de programmation, nous avons comparé les performances de quatre outils d'analyse statique, de huit modèles de base basés sur le LLM de pointe et de diverses méthodes de réglage fin. Nous démontrons que le modèle R2Vul à 1,5 milliard de paramètres surpasse un modèle d'enseignant à 32 milliards de paramètres et des modèles de référence commerciaux comme Claude-4-Opus. De plus, nous avons introduit une étape de correction légère pour réduire le taux de faux positifs sous diverses distributions de données déséquilibrées. Enfin, l'analyse qualitative montre que les évaluateurs, tant les évaluateurs LLM que les évaluateurs humains, ont systématiquement attribué aux inférences du modèle R2Vul une note supérieure à celle des autres modèles de référence basés sur les inférences.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode de détection de vulnérabilité R2Vul qui combine RLAIF et la distillation d'inférence structurelle.
Obtenir des performances qui surpassent les grands modèles même avec des petits modèles.
Prise en charge multilingue et applicabilité à divers langages de programmation.
Une étape de correction légère est proposée pour réduire le taux de faux positifs.
Génération d'inférences de haute qualité et détection précise des vulnérabilités.
Création du premier ensemble de données de préférences de détection de vulnérabilité multilingue.
Limitations:
La taille et la diversité de l’ensemble de données multilingues présenté laissent place à des améliorations futures.
Il peut y avoir un biais envers certains langages de programmation ou types de vulnérabilité.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation dans des environnements réels.
L’effet de l’étape de correction peut varier en fonction de la distribution des données.
👍