Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ExCyTIn-Bench : évaluation des agents LLM sur les enquêtes sur les cybermenaces

Created by
  • Haebom

Auteur

Yiran Wu, Mauricio Velazco, Andrew Zhao, Manuel Raul Mel endez Luj an, Srisuma Movva, Yogesh K Roy, Quang Nguyen, Roberto Rodriguez, Qingyun Wu, Michael Albada, Julia Kiseleva, Anand Mudgerikar

Contour

ExCyTIn-Bench est le premier benchmark permettant d'évaluer les agents LLM pour l'investigation des cybermenaces. Les analystes en sécurité doivent examiner diverses alertes et journaux de sécurité, tracer des chaînes de preuves en plusieurs étapes et générer des rapports d'incident. Cette étude a construit un ensemble de données composé de huit attaques simulées en plusieurs étapes dans un locataire Azure, de 57 tables de journaux Microsoft Sentinel et de services associés, et de 589 questions générées automatiquement. En utilisant une logique de détection conçue par des experts pour extraire les journaux de sécurité, nous construisons un graphe d'investigation des menaces. LLM génère des questions à partir de nœuds appariés du graphe, le nœud initial servant d'information contextuelle et le nœud final de réponse. En ancrant les questions à des nœuds et des arêtes explicites, nous fournissons non seulement des réponses automatiques et explicables, mais nous rendons également le pipeline réutilisable et facilement extensible à de nouveaux journaux. Cela permet la génération automatique de tâches procédurales avec des récompenses vérifiables, qui peuvent naturellement être étendues à l'entraînement des agents par apprentissage par renforcement. Nous avons validé la difficulté de la tâche par des expérimentations approfondies utilisant différents modèles. La récompense moyenne de tous les modèles évalués au départ était de 0,249 et la meilleure performance était de 0,368, ce qui laisse une marge d’amélioration significative pour les recherches futures.

Takeaways, Limitations_

Takeaways:
Fournir la première référence pour l'évaluation des agents LLM pour les enquêtes sur les cybermenaces.
ÉValuation réaliste possible avec des ensembles de données et des méthodes de génération de questions proches des environnements réels.
Transparence accrue des évaluations avec des réponses générées automatiquement et des réponses explicables.
Suggérant la possibilité d'une extension à la formation d'agents basée sur l'apprentissage par renforcement.
Limitations:
L’ensemble de données actuel est basé sur un environnement de locataire Azure limité.
La récompense moyenne est de 0,368, il y a donc encore beaucoup de marge d’amélioration.
La divulgation du code et des données n’est pas encore terminée.
👍