CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection
Created by
Haebom
저자
Richard A. Dubniczky, Krisztofer Zoltan Horvat, Tamas Bisztray, Mohamed Amine Ferrag, Lucas C. Cordeiro, Norbert Tihanyi
개요
CASTLE (CWE Automated Security Testing and Low-Level Evaluation)이라는 취약점 탐지 방법 평가 벤치마킹 프레임워크를 소개합니다. 13개의 정적 분석 도구, 10개의 거대 언어 모델(LLM), 2개의 형식 검증 도구를 사용하여 25개의 일반적인 CWE를 포함하는 250개의 마이크로 벤치마크 프로그램으로 구성된 수작업 데이터셋으로 평가를 진행했습니다. 공정한 비교를 보장하기 위해 새로운 평가 지표인 CASTLE Score를 제안했습니다. 평가 결과, 형식 검증 도구인 ESBMC는 오탐을 최소화하지만 모델 검사를 넘어서는 취약점(약한 암호화 또는 SQL 인젝션 등)에는 어려움을 겪는다는 것을 보여줍니다. 정적 분석기는 오탐률이 높아 개발자의 수동 검증 작업이 증가합니다. LLM은 작은 코드 조각에서 취약점을 식별하는 데 뛰어난 성능을 보이지만, 코드 크기가 커짐에 따라 정확도가 떨어지고 환각(hallucination)이 증가합니다. 결과적으로 LLM은 특히 실시간으로 취약점 방지 지침을 제공하는 코드 완성 프레임워크 내에서 미래 보안 솔루션에서 중요한 역할을 할 수 있음을 시사합니다. 데이터셋은 https://github.com/CASTLE-Benchmark 에서 이용 가능합니다.