ExCyTIn-Bench: Evaluating LLM agents on Cyber Threat Investigation
Created by
Haebom
저자
Yiran Wu, Mauricio Velazco, Andrew Zhao, Manuel Raul Melendez Lujan, Srisuma Movva, Yogesh K Roy, Quang Nguyen, Roberto Rodriguez, Qingyun Wu, Michael Albada, Julia Kiseleva, Anand Mudgerikar
개요
ExCyTIn-Bench는 사이버 위협 조사를 위한 LLM 에이전트를 평가하는 최초의 벤치마크입니다. 실제 보안 분석가는 다양한 경고 신호와 보안 로그를 조사하고, 다단계 증거 체인을 추적하며, 사고 보고서를 작성해야 합니다. 본 연구는 Azure tenant에서 8개의 시뮬레이션된 실제 다단계 공격, Microsoft Sentinel 및 관련 서비스의 57개 로그 테이블, 그리고 589개의 자동 생성 질문으로 구성된 데이터셋을 구축했습니다. 전문가가 제작한 탐지 로직으로 추출한 보안 로그를 사용하여 위협 조사 그래프를 구축하고, 그래프의 쌍으로 연결된 노드를 사용하여 LLM을 통해 질문을 생성합니다. 시작 노드를 배경 정보로, 끝 노드를 답변으로 사용합니다. 질문을 명시적인 노드와 에지에 고정시킴으로써 자동적이고 설명 가능한 정답을 제공할 뿐만 아니라 파이프라인을 재사용 가능하고 새로운 로그에 쉽게 확장할 수 있도록 합니다. 이를 통해 검증 가능한 보상을 가진 절차적 작업을 자동으로 생성할 수 있으며, 강화 학습을 통해 에이전트 훈련으로 자연스럽게 확장될 수 있습니다. 다양한 모델을 사용한 포괄적인 실험을 통해 과제의 어려움을 확인했습니다. 기본 설정에서 평가된 모든 모델의 평균 보상은 0.249이고 최고 성능은 0.368로, 향후 연구를 위한 상당한 개선 여지가 있습니다.