Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Pruebas de penetración multiagente con IA para la Web

Created by
  • Haebom

Autor

Isaac David, Arthur Gervais

Describir

Este artículo presenta MAPTA, un sistema multiagente, para abordar la crisis de escalabilidad en la auditoría de seguridad de aplicaciones web derivada de la proliferación de plataformas de desarrollo de software basadas en IA. MAPTA realiza evaluaciones autónomas de seguridad de aplicaciones web combinando modelos de lenguaje a gran escala, ejecución basada en herramientas y verificación integral de exploits. Demuestra un excelente rendimiento en el benchmark XBOW (104 tareas), especialmente en la detección de SSRF y errores de configuración. El análisis de costos revela un costo promedio de $0.073 por cada intento exitoso y $0.357 por cada intento fallido, lo que demuestra una fuerte correlación entre el éxito y la eficiencia de los recursos. La evaluación de repositorios reales de GitHub (8000-70 000 estrellas) reveló vulnerabilidades graves, como RCE, inyección de comandos, divulgación de secretos y escritura arbitraria de archivos, con 10 hallazgos bajo revisión CVE.

Takeaways, Limitations

Takeaways:
Demostración de la eficacia de un sistema automatizado de evaluación de seguridad de aplicaciones web basado en IA.
Presentamos un método de auditoría de seguridad rentable.
Descubrir y revelar responsablemente vulnerabilidades críticas en entornos del mundo real.
Presentando la posibilidad de realizar auditorías de seguridad utilizando modelos de lenguaje a gran escala.
Limitations:
Tasas de detección bajas de secuencias de comandos entre sitios (57 %) e inyección SQL ciega (0 %).
Necesidad de mejorar el rendimiento de detección para tipos específicos de vulnerabilidades.
👍