[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ACSE-Eval: Can LLMs threat model real-world cloud infrastructure?

Created by
  • Haebom

저자

Sarthak Munshi, Swapnil Pathak, Sonam Ghatode, Thenuga Priyadarshini, Dhivya Chandramouleeswaran, Ashutosh Rana

개요

본 논문은 클라우드 환경(AWS)에서의 보안 위협 모델링 능력을 평가하기 위한 새로운 데이터셋인 ACSE-Eval을 소개합니다. ACSE-Eval은 100개의 실제 AWS 배포 시나리오를 포함하며, 각 시나리오는 상세한 아키텍처 사양, IaC 구현, 문서화된 보안 취약점 및 관련 위협 모델링 매개변수를 포함합니다. 이 데이터셋을 사용하여 LLM이 클라우드 환경에서 보안 위험을 식별하고, 공격 벡터를 분석하고, 완화 전략을 제안하는 능력을 체계적으로 평가할 수 있습니다. GPT-4.1과 Gemini 2.5 Pro가 위협 식별에 뛰어난 성능을 보였으며, Gemini 2.5 Pro는 제로샷 시나리오에서, GPT-4.1은 퓨샷 시나리오에서 최상의 성능을 보였습니다. Claude 3.7 Sonnet은 가장 의미론적으로 정교한 위협 모델을 생성하지만 위협 분류 및 일반화에는 어려움을 겪었습니다. 데이터셋, 평가 지표 및 방법론을 오픈소스로 공개하여 재현성을 높이고 자동화된 사이버 보안 위협 분석 연구를 발전시키고자 합니다.

시사점, 한계점

시사점:
클라우드 환경에서 LLM의 사이버 보안 위협 모델링 성능을 평가하기 위한 표준화된 데이터셋(ACSE-Eval) 제공
GPT-4.1과 Gemini 2.5 Pro의 우수한 위협 식별 성능 확인 (각각 퓨샷, 제로샷에서 강점)
LLM 기반 자동화된 사이버 보안 위협 분석 연구의 발전 가능성 제시
데이터셋, 평가 지표 및 방법론의 오픈소스 공개를 통한 연구 재현성 확보
한계점:
현재 평가는 특정 LLM (GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet) 에 국한됨. 다양한 LLM에 대한 추가적인 평가 필요
ACSE-Eval 데이터셋의 범위 및 일반화 가능성에 대한 추가적인 검증 필요
Claude 3.7 Sonnet의 위협 분류 및 일반화 성능 개선 필요
👍