Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection

Created by
  • Haebom

저자

Richard A. Dubniczky, Krisztofer Zoltan Horvat, Tamas Bisztray, Mohamed Amine Ferrag, Lucas C. Cordeiro, Norbert Tihanyi

개요

CASTLE (CWE Automated Security Testing and Low-Level Evaluation)이라는 취약점 탐지 방법 평가 벤치마킹 프레임워크를 소개합니다. 13개의 정적 분석 도구, 10개의 거대 언어 모델(LLM), 2개의 형식 검증 도구를 사용하여 25개의 일반적인 CWE를 포함하는 250개의 마이크로 벤치마크 프로그램으로 구성된 수작업 데이터셋으로 평가를 진행했습니다. 공정한 비교를 보장하기 위해 새로운 평가 지표인 CASTLE Score를 제안했습니다. 평가 결과, 형식 검증 도구인 ESBMC는 오탐을 최소화하지만 모델 검사를 넘어서는 취약점(약한 암호화 또는 SQL 인젝션 등)에는 어려움을 겪는다는 것을 보여줍니다. 정적 분석기는 오탐률이 높아 개발자의 수동 검증 작업이 증가합니다. LLM은 작은 코드 조각에서 취약점을 식별하는 데 뛰어난 성능을 보이지만, 코드 크기가 커짐에 따라 정확도가 떨어지고 환각(hallucination)이 증가합니다. 결과적으로 LLM은 특히 실시간으로 취약점 방지 지침을 제공하는 코드 완성 프레임워크 내에서 미래 보안 솔루션에서 중요한 역할을 할 수 있음을 시사합니다. 데이터셋은 https://github.com/CASTLE-Benchmark 에서 이용 가능합니다.

시사점, 한계점

시사점:
LLM이 작은 코드 조각의 취약점 탐지에 매우 효과적임을 확인했습니다.
LLM 기반 코드 완성 프레임워크가 실시간 취약점 방지에 기여할 가능성을 제시했습니다.
CASTLE Score라는 새로운 평가 지표를 통해 다양한 취약점 탐지 방법의 공정한 비교가 가능해졌습니다.
다양한 취약점 탐지 방법의 강점과 약점을 비교 분석하여, 각 방법의 적절한 활용 방안을 제시할 수 있습니다.
한계점:
LLM의 정확도는 코드 크기가 커짐에 따라 감소하고 환각 현상이 증가합니다.
정적 분석기는 높은 오탐률로 인해 개발자의 수동 검증 부담이 증가합니다.
형식 검증 도구는 모델 검사를 넘어서는 취약점 탐지에 어려움을 겪습니다.
평가에 사용된 데이터셋이 수작업으로 제작된 250개의 마이크로 벤치마크 프로그램으로 제한되어 실제 소프트웨어에 대한 일반화 가능성에 대한 의문이 남습니다.
👍