Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ExCyTIn-Bench: Evaluación de agentes LLM en la investigación de ciberamenazas

Created by
  • Haebom

Autor

Yiran Wu, Mauricio Velazco, Andrew Zhao, Manuel Raul Mel endez Luj an, Srisuma Movva, Yogesh K Roy, Quang Nguyen, Roberto Rodriguez, Qingyun Wu, Michael Albada, Julia Kiseleva, Anand Mudgerikar

Describir

ExCyTIn-Bench es el primer punto de referencia que evalúa agentes LLM para la investigación de ciberamenazas. Los analistas de seguridad en situaciones reales deben examinar diversas alertas y registros de seguridad, rastrear cadenas de evidencia de varios pasos y generar informes de incidentes. Este estudio generó un conjunto de datos compuesto por ocho ataques simulados de varios pasos en situaciones reales en un inquilino de Azure, 57 tablas de registro de Microsoft Sentinel y servicios relacionados, y 589 preguntas generadas automáticamente. Utilizando una lógica de detección diseñada por expertos para extraer registros de seguridad, construimos un grafo de investigación de amenazas. LLM genera preguntas utilizando pares de nodos en el grafo, utilizando el nodo inicial como información de fondo y el nodo final como respuesta. Al anclar las preguntas a nodos y bordes explícitos, no solo proporcionamos respuestas automáticas y explicables, sino que también hacemos que el flujo de trabajo sea reutilizable y fácilmente extensible a nuevos registros. Esto permite la generación automática de tareas procedimentales con recompensas verificables, que pueden extenderse naturalmente al entrenamiento de agentes mediante aprendizaje por refuerzo. Validamos el desafío de la tarea mediante experimentos exhaustivos con varios modelos. La recompensa promedio de todos los modelos evaluados al inicio fue de 0,249 y el mejor desempeño fue de 0,368, lo que deja un margen significativo para mejoras en futuras investigaciones.

Takeaways, Limitations

Takeaways:
Proporcionar el primer punto de referencia para evaluar a los agentes LLM para la investigación de amenazas cibernéticas.
Evaluación realista posible con conjuntos de datos y métodos de generación de preguntas cercanos a entornos reales.
Mayor transparencia de las evaluaciones con respuestas generadas automáticamente y respuestas explicables.
Sugerimos la posibilidad de extensión al entrenamiento de agentes basado en aprendizaje de refuerzo.
Limitations:
El conjunto de datos actual se basa en un entorno de inquilino de Azure limitado.
La recompensa promedio es de 0,368, por lo que aún hay mucho margen de mejora.
La divulgación del código y los datos aún no está completa.
👍