본 논문은 소스 코드 취약성 탐지 방법들의 성능을 평가하기 위한 벤치마킹 프레임워크인 CASTLE을 제안한다. CASTLE은 25개의 일반적인 CWE를 포함하는 250개의 마이크로 벤치마크 프로그램으로 구성된 수동 제작 데이터셋을 사용하여 13개의 정적 분석 도구, 10개의 LLM, 그리고 2개의 형식 검증 도구를 평가한다. 새로운 평가 지표인 CASTLE Score를 제안하여 공정한 비교를 보장하며, 각 방법의 강점과 약점을 분석한다. 특히, 형식 검증 도구는 위양성을 최소화하지만 모델 검사를 넘어서는 취약성(약한 암호화, SQL 인젝션 등)에는 어려움을 겪고, 정적 분석 도구는 높은 위양성률을 보이며, LLM은 작은 코드 조각에서는 높은 정확도를 보이지만 코드 크기가 커짐에 따라 정확도가 떨어지고 환각 현상이 증가하는 것을 확인하였다. 데이터셋은 GitHub에서 공개한다.