Este artículo propone R2Vul, un novedoso método para detectar vulnerabilidades de software. R2Vul combina la retroalimentación de IA basada en aprendizaje por refuerzo (RLAIF) y la destilación de inferencia estructurada para entrenar LLM de código pequeño para detectar vulnerabilidades y generar explicaciones con conciencia de seguridad. A diferencia de los procesos de pensamiento existentes y los métodos de ajuste directivo, R2Vul prioriza las explicaciones bien fundamentadas sobre las plausibles pero infundadas mediante RLAIF, lo que resulta en detecciones más precisas e inferencias de mayor calidad. Para respaldar RLAIF, creamos el primer conjunto de datos de preferencia de detección de vulnerabilidades multilingüe, compuesto por 18 000 muestras de alta calidad de C#, JavaScript, Java, Python y C. En cinco lenguajes de programación, comparamos el rendimiento de cuatro herramientas de análisis estático, ocho modelos de referencia de vanguardia basados en LLM y varios métodos de ajuste fino. Demostramos que el modelo R2Vul, con 1500 millones de parámetros, supera a un modelo docente de 32 000 millones de parámetros y a los principales modelos de aprendizaje a distancia (LLM) comerciales, como Claude-4-Opus. Además, introdujimos un paso de corrección ligero para reducir la tasa de falsos positivos en diversas distribuciones de datos desequilibradas. Finalmente, el análisis cualitativo muestra que tanto los evaluadores de LLM como los humanos calificaron consistentemente las inferencias del modelo R2Vul por encima de las de otros modelos de referencia basados en inferencias.