ExCyTIn-Bench est le premier benchmark permettant d'évaluer les agents LLM pour l'investigation des cybermenaces. Les analystes en sécurité doivent examiner diverses alertes et journaux de sécurité, tracer des chaînes de preuves en plusieurs étapes et générer des rapports d'incident. Cette étude a construit un ensemble de données composé de huit attaques simulées en plusieurs étapes dans un locataire Azure, de 57 tables de journaux Microsoft Sentinel et de services associés, et de 589 questions générées automatiquement. En utilisant une logique de détection conçue par des experts pour extraire les journaux de sécurité, nous construisons un graphe d'investigation des menaces. LLM génère des questions à partir de nœuds appariés du graphe, le nœud initial servant d'information contextuelle et le nœud final de réponse. En ancrant les questions à des nœuds et des arêtes explicites, nous fournissons non seulement des réponses automatiques et explicables, mais nous rendons également le pipeline réutilisable et facilement extensible à de nouveaux journaux. Cela permet la génération automatique de tâches procédurales avec des récompenses vérifiables, qui peuvent naturellement être étendues à l'entraînement des agents par apprentissage par renforcement. Nous avons validé la difficulté de la tâche par des expérimentations approfondies utilisant différents modèles. La récompense moyenne de tous les modèles évalués au départ était de 0,249 et la meilleure performance était de 0,368, ce qui laisse une marge d’amélioration significative pour les recherches futures.