본 논문은 클라우드 환경(AWS)에서의 보안 위협 모델링 능력을 평가하기 위한 새로운 데이터셋인 ACSE-Eval을 소개합니다. ACSE-Eval은 100개의 실제 AWS 배포 시나리오를 포함하며, 각 시나리오는 상세한 아키텍처 사양, IaC 구현, 문서화된 보안 취약점 및 관련 위협 모델링 매개변수를 포함합니다. 이 데이터셋을 사용하여 LLM이 클라우드 환경에서 보안 위험을 식별하고, 공격 벡터를 분석하고, 완화 전략을 제안하는 능력을 체계적으로 평가할 수 있습니다. GPT-4.1과 Gemini 2.5 Pro가 위협 식별에 뛰어난 성능을 보였으며, Gemini 2.5 Pro는 제로샷 시나리오에서, GPT-4.1은 퓨샷 시나리오에서 최상의 성능을 보였습니다. Claude 3.7 Sonnet은 가장 의미론적으로 정교한 위협 모델을 생성하지만 위협 분류 및 일반화에는 어려움을 겪었습니다. 데이터셋, 평가 지표 및 방법론을 오픈소스로 공개하여 재현성을 높이고 자동화된 사이버 보안 위협 분석 연구를 발전시키고자 합니다.