Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can LLM Prompting Serve as a Proxy for Static Analysis in Vulnerability Detection

Created by
  • Haebom

저자

Ira Ceka, Feitong Qiao, Anik Dey, Aastha Valecha, Gail Kaiser, Baishakhi Ray

개요

본 논문은 대규모 언어 모델(LLM)을 이용하여 부분 코드에서의 취약점 탐지를 위한 새로운 접근법을 제시합니다. 기존의 정적 분석(SA) 도구는 수동으로 작성된 규칙에 의존하여 취약점을 감지하지만, 높은 오류율을 보이는 한계가 있습니다. 본 연구는 LLM 프롬프팅을 통해 이러한 SA 도구의 대안을 제시하고, 자연어 지침과 대조적 사고 과정 추론을 통합한 프롬프팅 전략을 제안합니다. 합성 데이터셋으로부터 얻은 대조적 샘플을 활용하여 프롬프팅 전략을 강화하고, DeepSeek-R1과 같은 최첨단 추론 모델을 활용하여 정적 분석 기법보다 높은 정확도를 달성함을 보여줍니다. 특히, 제안된 최적의 전략은 정확도를 최대 31.6%, F1 점수를 71.7%, 쌍별 정확도를 60.4% 향상시키고, 위음성률(FNR)을 최대 37.6% 감소시켰습니다.

시사점, 한계점

시사점:
LLM 프롬프팅을 활용하여 부분 코드에서의 취약점 탐지 성능을 향상시킬 수 있음을 보여줌.
수동으로 작성된 규칙에 의존하는 기존 정적 분석 도구의 한계를 극복할 수 있는 대안 제시.
효율적인 프롬프팅 전략을 통해 정적 분석 도구의 정확도 및 F1 점수, 쌍별 정확도를 크게 향상시키고 위음성률을 감소시킬 수 있음.
한계점:
제안된 프롬프팅 전략의 성능은 사용된 LLM 및 데이터셋에 의존적일 수 있음.
실제 애플리케이션에서의 일반화 성능에 대한 추가적인 검증 필요.
합성 데이터셋에 의존하는 부분이 있어, 실제 취약점 데이터셋을 사용한 추가적인 실험이 필요함.
특정 추론 모델(DeepSeek-R1)에 대한 의존성이 존재. 다양한 모델에서의 성능 검증 필요.
👍