Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection

Created by
  • Haebom
Category
Empty

저자

Richard A. Dubniczky, Krisztofer Zoltan Horvat, Tamas Bisztray, Mohamed Amine Ferrag, Lucas C. Cordeiro, Norbert Tihanyi

개요

본 논문은 소스 코드 취약성 탐지 방법들의 성능을 평가하기 위한 벤치마킹 프레임워크인 CASTLE을 제안한다. CASTLE은 25개의 일반적인 CWE를 포함하는 250개의 마이크로 벤치마크 프로그램으로 구성된 수동 제작 데이터셋을 사용하여 13개의 정적 분석 도구, 10개의 LLM, 그리고 2개의 형식 검증 도구를 평가한다. 새로운 평가 지표인 CASTLE Score를 제안하여 공정한 비교를 보장하며, 각 방법의 강점과 약점을 분석한다. 특히, 형식 검증 도구는 위양성을 최소화하지만 모델 검사를 넘어서는 취약성(약한 암호화, SQL 인젝션 등)에는 어려움을 겪고, 정적 분석 도구는 높은 위양성률을 보이며, LLM은 작은 코드 조각에서는 높은 정확도를 보이지만 코드 크기가 커짐에 따라 정확도가 떨어지고 환각 현상이 증가하는 것을 확인하였다. 데이터셋은 GitHub에서 공개한다.

시사점, 한계점

시사점:
LLM이 작은 코드 조각의 취약성 탐지에 매우 효과적임을 보여줌.
LLM을 코드 완성 프레임워크에 통합하여 실시간으로 취약성을 방지하는 데 활용 가능성 제시.
CASTLE 프레임워크는 다양한 취약성 탐지 방법들의 성능을 비교 평가하는 데 유용한 도구임.
CASTLE Score는 다양한 방법들을 공정하게 비교하는 새로운 평가 지표를 제공.
한계점:
LLM의 정확도는 코드 크기에 따라 감소하고 환각 현상이 증가함.
정적 분석 도구는 높은 위양성률로 인해 개발자의 수동 검증 부담 증가.
형식 검증 도구는 모델 검사를 넘어서는 취약성에 대한 탐지 성능이 낮음.
현재 데이터셋은 수동으로 제작된 마이크로 벤치마크 프로그램으로 구성되어 실제 소프트웨어의 복잡성을 완전히 반영하지 못할 수 있음.
👍