Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Revisión de modelos de lenguaje preentrenados para la detección de vulnerabilidades

Created by
  • Haebom

Autor

Youpeng Li, Weiliang Qi, Xuyu Wang, Fuxun Yu, Xinda Wang

Describir

Este artículo presenta un estudio exhaustivo de RevisitVD, un modelo de lenguaje preentrenado (PLM) para la detección de vulnerabilidades (VD). Utilizando un conjunto de datos de nueva construcción, comparamos enfoques de ajuste fino e ingeniería rápida utilizando 17 PLM (incluyendo PLM de pequeña escala, específicos para código, y PLM de gran escala). Evaluamos su eficacia en diversos entornos de entrenamiento y prueba, su capacidad de generalización y su robustez a la normalización, abstracción y transformaciones semánticas de código. Observamos que un PLM que incorpora una tarea preentrenada diseñada para capturar patrones sintácticos y semánticos de código supera a los PLM de propósito general o a los PLM preentrenados o ajustados solo en grandes corpus de código. Sin embargo, también observamos dificultades en escenarios reales, como la detección de vulnerabilidades con dependencias complejas, la gestión de cambios debido a la normalización y abstracción de código, y la identificación de transformaciones de código semánticamente vulnerables. También destacamos que la limitada ventana de contexto del PLM puede provocar errores de etiquetado significativos debido al truncamiento.

Takeaways, Limitations

Takeaways: Demostramos que el preentrenamiento que considera patrones sintácticos y semánticos en el código es crucial para mejorar el rendimiento de VD. Destacamos la importancia de la evaluación PLM para aplicaciones de VD reales.
Limitations: Esto presenta desafíos para su aplicación en situaciones reales, incluyendo vulnerabilidades con dependencias complejas, transformaciones de código y errores de etiquetado debido a ventanas de contexto limitadas. Se necesitan sugerencias de mejora para garantizar la aplicación práctica de PLM.
👍