본 연구는 대규모 언어 모델(LLM)을 이용한 코드 검토 시 보안 결함 탐지 가능성을 실험적으로 연구한 논문입니다. 기존 정적 분석 도구의 일반화 성능 저하, 높은 오탐율, 조잡한 탐지 수준 등의 문제점을 해결하기 위해 6개의 LLM을 5가지 프롬프트 하에 평가하고 최신 정적 분석 도구와 비교 분석하였습니다. 최고 성능을 보인 LLM에 대해 언어적 및 회귀 분석을 수행하여 응답의 질적 문제와 성능에 영향을 미치는 요인을 분석했습니다. 결과적으로, 기존 사전 훈련된 LLM은 보안 코드 검토 능력이 제한적이지만 최신 정적 분석 도구보다 성능이 훨씬 우수하며, 특히 CWE 목록을 참조하도록 프롬프트된 GPT-4가 가장 좋은 성능을 보였습니다. 하지만 GPT-4는 과도하거나 요구사항을 충족하지 않는 응답을 자주 생성하며, 토큰 수가 적고 기능적 논리에 집중된 코드, 프로젝트 참여도가 낮은 개발자가 작성한 코드에서 더 높은 성능을 보이는 것으로 나타났습니다.