Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ASE: Un punto de referencia a nivel de repositorio para evaluar la seguridad en el código generado por IA

Created by
  • Haebom

Autor

Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang

Describir

Este artículo destaca la importancia de evaluar la seguridad del código generado, impulsada por el creciente uso de modelos de lenguaje a gran escala (LLM) en ingeniería de software. Los benchmarks existentes carecen de relevancia para escenarios reales de programación de IA, lo que los hace inadecuados para evaluar los riesgos de seguridad prácticos asociados al código generado por IA en entornos reales. Para abordar este problema, este artículo presenta la Evaluación de Seguridad de Generación de Código de IA (ASE), un benchmark de evaluación a nivel de repositorio diseñado para reflejar con precisión las tareas de programación de IA en el mundo real. Las evaluaciones de los principales LLM que utilizan ASE revelan que los LLM actuales presentan dificultades para la codificación segura, y la complejidad de los escenarios a nivel de repositorio presenta desafíos para los LLM que suelen tener un buen rendimiento en tareas a nivel de fragmento de código. Además, demostramos que mayores presupuestos de inferencia no necesariamente conducen a una mejor generación de código. Estas observaciones proporcionan información valiosa sobre el estado actual de la generación de código de IA, ayudan a los desarrolladores a seleccionar los modelos más adecuados para sus tareas y sientan las bases para mejorar los LLM y generar código seguro y eficiente en aplicaciones reales.

Takeaways, Limitations

Takeaways:
Un nuevo punto de referencia, ASE, refleja escenarios de programación de IA del mundo real.
Revelando las limitaciones de la capacidad del LLM actual para generar código seguro.
Analizar el impacto de la complejidad de la operación a nivel de almacenamiento en el rendimiento de LLM.
No encontramos correlación entre el presupuesto de inferencia y la calidad de generación de código.
Selección de LLM para desarrolladores y direcciones para la mejora del LLM
Limitations:
Se necesitan más investigaciones para determinar la generalización del índice de referencia ASE.
Necesidad de ampliar las evaluaciones para varios LLM y lenguajes de programación
Se necesitan mejoras de referencia para reflejar escenarios del mundo real más complejos y diversos.
👍