Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors

Created by
  • Haebom

저자

Jiaxin Yu, Peng Liang, Yujia Fu, Amjed Tahir, Mojtaba Shahin, Chong Wang, Yangxiao Cai

개요

본 연구는 대규모 언어 모델(LLM)을 이용한 코드 검토 시 보안 결함 탐지 가능성을 실험적으로 연구한 논문입니다. 기존 정적 분석 도구의 일반화 성능 저하, 높은 오탐율, 조잡한 탐지 수준 등의 문제점을 해결하기 위해 6개의 LLM을 5가지 프롬프트 하에 평가하고 최신 정적 분석 도구와 비교 분석하였습니다. 최고 성능을 보인 LLM에 대해 언어적 및 회귀 분석을 수행하여 응답의 질적 문제와 성능에 영향을 미치는 요인을 분석했습니다. 결과적으로, 기존 사전 훈련된 LLM은 보안 코드 검토 능력이 제한적이지만 최신 정적 분석 도구보다 성능이 훨씬 우수하며, 특히 CWE 목록을 참조하도록 프롬프트된 GPT-4가 가장 좋은 성능을 보였습니다. 하지만 GPT-4는 과도하거나 요구사항을 충족하지 않는 응답을 자주 생성하며, 토큰 수가 적고 기능적 논리에 집중된 코드, 프로젝트 참여도가 낮은 개발자가 작성한 코드에서 더 높은 성능을 보이는 것으로 나타났습니다.

시사점, 한계점

시사점:
사전 훈련된 LLM이 기존 정적 분석 도구보다 보안 코드 검토에서 훨씬 우수한 성능을 보임.
CWE 목록을 참조하는 GPT-4가 LLM 중 가장 우수한 성능을 보임.
LLM을 활용한 보안 코드 검토의 가능성을 확인.
한계점:
GPT-4를 포함한 LLM이 과도하거나 요구사항을 충족하지 않는 응답을 생성하는 문제점 존재.
LLM의 성능이 코드 토큰 수, 코드의 기능적 복잡도, 개발자의 프로젝트 참여도에 영향을 받음.
LLM의 보안 코드 검토 능력이 여전히 제한적임.
👍