Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ExCyTIn-Bench: Evaluating LLM agents on Cyber Threat Investigation

Created by
  • Haebom

저자

Yiran Wu, Mauricio Velazco, Andrew Zhao, Manuel Raul Melendez Lujan, Srisuma Movva, Yogesh K Roy, Quang Nguyen, Roberto Rodriguez, Qingyun Wu, Michael Albada, Julia Kiseleva, Anand Mudgerikar

개요

ExCyTIn-Bench는 사이버 위협 조사를 위한 LLM 에이전트를 평가하는 최초의 벤치마크입니다. 실제 보안 분석가는 다양한 경고 신호와 보안 로그를 조사하고, 다단계 증거 체인을 추적하며, 사고 보고서를 작성해야 합니다. 본 연구는 Azure tenant에서 8개의 시뮬레이션된 실제 다단계 공격, Microsoft Sentinel 및 관련 서비스의 57개 로그 테이블, 그리고 589개의 자동 생성 질문으로 구성된 데이터셋을 구축했습니다. 전문가가 제작한 탐지 로직으로 추출한 보안 로그를 사용하여 위협 조사 그래프를 구축하고, 그래프의 쌍으로 연결된 노드를 사용하여 LLM을 통해 질문을 생성합니다. 시작 노드를 배경 정보로, 끝 노드를 답변으로 사용합니다. 질문을 명시적인 노드와 에지에 고정시킴으로써 자동적이고 설명 가능한 정답을 제공할 뿐만 아니라 파이프라인을 재사용 가능하고 새로운 로그에 쉽게 확장할 수 있도록 합니다. 이를 통해 검증 가능한 보상을 가진 절차적 작업을 자동으로 생성할 수 있으며, 강화 학습을 통해 에이전트 훈련으로 자연스럽게 확장될 수 있습니다. 다양한 모델을 사용한 포괄적인 실험을 통해 과제의 어려움을 확인했습니다. 기본 설정에서 평가된 모든 모델의 평균 보상은 0.249이고 최고 성능은 0.368로, 향후 연구를 위한 상당한 개선 여지가 있습니다.

시사점, 한계점

시사점:
사이버 위협 조사를 위한 LLM 에이전트 평가를 위한 최초의 벤치마크 제공.
실제 환경에 가까운 데이터셋과 질문 생성 방식으로 현실적인 평가 가능.
자동 생성된 정답과 설명 가능성으로 평가의 투명성 향상.
강화 학습 기반 에이전트 훈련으로의 확장 가능성 제시.
한계점:
현재 데이터셋은 제한된 Azure tenant 환경 기반.
평균 보상이 0.368로 여전히 개선 여지가 큼.
코드 및 데이터 공개가 아직 완료되지 않음.
👍