ExCyTIn-Bench es el primer punto de referencia que evalúa agentes LLM para la investigación de ciberamenazas. Los analistas de seguridad en situaciones reales deben examinar diversas alertas y registros de seguridad, rastrear cadenas de evidencia de varios pasos y generar informes de incidentes. Este estudio generó un conjunto de datos compuesto por ocho ataques simulados de varios pasos en situaciones reales en un inquilino de Azure, 57 tablas de registro de Microsoft Sentinel y servicios relacionados, y 589 preguntas generadas automáticamente. Utilizando una lógica de detección diseñada por expertos para extraer registros de seguridad, construimos un grafo de investigación de amenazas. LLM genera preguntas utilizando pares de nodos en el grafo, utilizando el nodo inicial como información de fondo y el nodo final como respuesta. Al anclar las preguntas a nodos y bordes explícitos, no solo proporcionamos respuestas automáticas y explicables, sino que también hacemos que el flujo de trabajo sea reutilizable y fácilmente extensible a nuevos registros. Esto permite la generación automática de tareas procedimentales con recompensas verificables, que pueden extenderse naturalmente al entrenamiento de agentes mediante aprendizaje por refuerzo. Validamos el desafío de la tarea mediante experimentos exhaustivos con varios modelos. La recompensa promedio de todos los modelos evaluados al inicio fue de 0,249 y el mejor desempeño fue de 0,368, lo que deja un margen significativo para mejoras en futuras investigaciones.