Sign In

AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

Created by
  • Haebom
Category
Empty

저자

Md Tanvirul Alam, Dipkamal Bhusal, Salman Ahmad, Nidhi Rastogi, Peter Worth

개요

본 논문은 대규모 언어 모델(LLM)이 사이버 위협 인텔리전스(CTI) 분석에 활용될 수 있는 잠재력을 탐구하며, 이를 위해 CTIBench를 확장한 AthenaBench를 개발하고 평가 결과를 제시합니다. AthenaBench는 데이터셋 개선, 중복 제거, 향상된 평가 지표, 위험 완화 전략에 초점을 맞춘 새로운 작업을 포함합니다. GPT-5, Gemini-2.5 Pro와 같은 최신 상용 모델과 LLaMA 및 Qwen 계열의 오픈 소스 모델 등 총 12개의 LLM을 평가했습니다. 평가 결과, 상용 모델이 전반적으로 우수한 성능을 보였지만, 위협 행위자 귀속 및 위험 완화와 같은 추론 집약적인 작업에서는 성능이 여전히 부족했으며, 오픈 소스 모델은 더욱 뒤쳐졌습니다.

시사점, 한계점

시사점:
LLM은 CTI 분석의 자동화 및 분석가 작업량 감소에 기여할 수 있는 잠재력을 보여줍니다.
AthenaBench는 CTI 분야 LLM 평가를 위한 개선된 벤치마크를 제공합니다.
상용 LLM이 오픈 소스 모델보다 우수한 성능을 보이지만, 추론 능력은 여전히 제한적입니다.
한계점:
현재 LLM은 위협 행위자 귀속 및 위험 완화와 같은 추론 기반 CTI 작업에서 충분한 성능을 발휘하지 못합니다.
LLM이 CTI 워크플로우에 완전히 통합되기 위해서는 모델의 추론 능력 개선이 필요합니다.
본 연구는 현재 LLM의 근본적인 한계를 보여줍니다.
👍