본 논문은 대규모 언어 모델(LLM)이 사이버 위협 인텔리전스(CTI) 분석에 활용될 수 있는 잠재력을 탐구하며, 이를 위해 CTIBench를 확장한 AthenaBench를 개발하고 평가 결과를 제시합니다. AthenaBench는 데이터셋 개선, 중복 제거, 향상된 평가 지표, 위험 완화 전략에 초점을 맞춘 새로운 작업을 포함합니다. GPT-5, Gemini-2.5 Pro와 같은 최신 상용 모델과 LLaMA 및 Qwen 계열의 오픈 소스 모델 등 총 12개의 LLM을 평가했습니다. 평가 결과, 상용 모델이 전반적으로 우수한 성능을 보였지만, 위협 행위자 귀속 및 위험 완화와 같은 추론 집약적인 작업에서는 성능이 여전히 부족했으며, 오픈 소스 모델은 더욱 뒤쳐졌습니다.