Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

R2Vul: Aprender a razonar sobre vulnerabilidades de software con aprendizaje de refuerzo y razonamiento estructurado

Created by
  • Haebom

Autor

Martin Weyssow, Chengran Yang, Junkai Chen, Ratnadira Widyasari, Ting Zhang, Huihui Huang, Huu Hung Nguyen, Yan Naing Tun, Tan Bui, Yikun Li, Ang Han Wei, Frank Liauw, Eng Lieh Ouh, Lwin Khin Shar, David Lo

Describir

Este artículo propone R2Vul, un novedoso método para detectar vulnerabilidades de software. R2Vul combina la retroalimentación de IA basada en aprendizaje por refuerzo (RLAIF) y la destilación de inferencia estructurada para entrenar LLM de código pequeño para detectar vulnerabilidades y generar explicaciones con conciencia de seguridad. A diferencia de los procesos de pensamiento existentes y los métodos de ajuste directivo, R2Vul prioriza las explicaciones bien fundamentadas sobre las plausibles pero infundadas mediante RLAIF, lo que resulta en detecciones más precisas e inferencias de mayor calidad. Para respaldar RLAIF, creamos el primer conjunto de datos de preferencia de detección de vulnerabilidades multilingüe, compuesto por 18 000 muestras de alta calidad de C#, JavaScript, Java, Python y C. En cinco lenguajes de programación, comparamos el rendimiento de cuatro herramientas de análisis estático, ocho modelos de referencia de vanguardia basados en LLM y varios métodos de ajuste fino. Demostramos que el modelo R2Vul, con 1500 millones de parámetros, supera a un modelo docente de 32 000 millones de parámetros y a los principales modelos de aprendizaje a distancia (LLM) comerciales, como Claude-4-Opus. Además, introdujimos un paso de corrección ligero para reducir la tasa de falsos positivos en diversas distribuciones de datos desequilibradas. Finalmente, el análisis cualitativo muestra que tanto los evaluadores de LLM como los humanos calificaron consistentemente las inferencias del modelo R2Vul por encima de las de otros modelos de referencia basados en inferencias.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método de detección de vulnerabilidades R2Vul que combina RLAIF y destilación de inferencia estructural.
Conseguir un rendimiento que supere a los modelos grandes incluso con modelos pequeños.
Soporte multilingüe y aplicabilidad a varios lenguajes de programación.
Se propone una medida de corrección ligera para reducir la tasa de falsos positivos.
Generación de inferencias de alta calidad y detección precisa de vulnerabilidades.
Construcción del primer conjunto de datos de preferencia de detección de vulnerabilidades multilingües.
Limitations:
El tamaño y la diversidad del conjunto de datos multilingües presentado dejan espacio para futuras mejoras.
Puede haber sesgo hacia ciertos lenguajes de programación o tipos de vulnerabilidades.
Se necesita más investigación sobre el rendimiento de la generalización en entornos del mundo real.
El efecto del paso de corrección puede variar según la distribución de datos.
👍