Cet article propose R2Vul, une nouvelle méthode de détection des vulnérabilités logicielles. R2Vul combine le retour d'information basé sur l'apprentissage par renforcement (RLAIF) et la distillation d'inférences structurées pour entraîner des LLM à code réduit afin de détecter les vulnérabilités et de générer des explications axées sur la sécurité. Contrairement aux processus de pensée et aux méthodes de réglage directif existants, R2Vul privilégie les explications fondées par rapport aux explications plausibles mais infondées grâce à RLAIF, ce qui permet des détections plus précises et des inférences de meilleure qualité. Pour soutenir RLAIF, nous avons créé le premier ensemble de données multilingue de préférences de détection des vulnérabilités, composé de 18 000 échantillons de haute qualité issus de C#, JavaScript, Java, Python et C. Dans cinq langages de programmation, nous avons comparé les performances de quatre outils d'analyse statique, de huit modèles de base basés sur le LLM de pointe et de diverses méthodes de réglage fin. Nous démontrons que le modèle R2Vul à 1,5 milliard de paramètres surpasse un modèle d'enseignant à 32 milliards de paramètres et des modèles de référence commerciaux comme Claude-4-Opus. De plus, nous avons introduit une étape de correction légère pour réduire le taux de faux positifs sous diverses distributions de données déséquilibrées. Enfin, l'analyse qualitative montre que les évaluateurs, tant les évaluateurs LLM que les évaluateurs humains, ont systématiquement attribué aux inférences du modèle R2Vul une note supérieure à celle des autres modèles de référence basés sur les inférences.