Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Effective Complementary Security Analysis using Large Language Models

Created by
  • Haebom

저자

Jonas Wagner, Simon Muller, Christian Nather, Jan-Philipp Steghofer, Andreas Both

개요

본 논문은 정적 애플리케이션 보안 테스트(SAST) 도구가 생성하는 잠재적 보안 취약점의 수동 평가에 대한 어려움을 해결하기 위해 대규모 언어 모델(LLM)을 활용하는 방법을 제안합니다. OWASP Benchmark(v1.2)와 실제 소프트웨어 프로젝트에서 추출한 데이터셋을 사용하여 LLM이 진짜 양성(TP) 비율을 유지하면서 가양성(FP)을 줄이는 능력을 조사했습니다. Chain-of-Thought 및 Self-Consistency와 같은 고급 프롬프팅 기법이 FP 탐지를 상당히 향상시킨다는 것을 발견했습니다. 특히, 일부 LLM은 진짜 취약점을 놓치지 않고 OWASP Benchmark 데이터셋의 약 62.5%의 FP를 식별했습니다. 다양한 LLM의 탐지를 결합하면 이 FP 탐지율이 약 78.9%로 증가했습니다. 또한, 5개의 SAST 도구, 3개의 프로그래밍 언어 및 인프라 파일을 포함하는 실제 데이터셋을 사용하여 본 접근 방식의 일반화 가능성을 보여주었습니다. 최고 성능의 LLM은 진짜 취약점을 놓치지 않고 모든 FP의 33.85%를 탐지했으며, 여러 LLM의 탐지를 결합하면 탐지율이 38.46%로 증가했습니다. 이러한 결과는 LLM이 기존 SAST 도구를 보완하여 자동화를 향상시키고 오경보 해결에 소요되는 리소스를 줄일 수 있는 잠재력을 강조합니다.

시사점, 한계점

시사점:
LLM을 활용하여 SAST 도구의 가양성(FP)을 효과적으로 줄일 수 있음을 보여줌.
Chain-of-Thought 및 Self-Consistency와 같은 고급 프롬프팅 기법이 LLM의 FP 탐지 성능을 크게 향상시킴.
여러 LLM의 결과를 결합하여 FP 탐지율을 더욱 높일 수 있음.
LLM 기반 접근 방식이 다양한 SAST 도구, 프로그래밍 언어 및 데이터셋에 일반화 가능함을 증명.
SAST 분석의 자동화 및 효율성 향상에 기여.
한계점:
OWASP Benchmark와 실제 프로젝트 데이터셋 모두에서 완벽한 FP 제거에는 도달하지 못함.
LLM의 성능은 사용된 LLM과 프롬프트 엔지니어링 기법에 따라 달라짐.
실제 환경 적용 시 추가적인 검증 및 최적화가 필요할 수 있음.
LLM의 해석 가능성 및 신뢰성에 대한 추가적인 연구가 필요.
👍