본 논문은 정적 애플리케이션 보안 테스트(SAST) 도구가 생성하는 잠재적 보안 취약점의 수동 평가에 대한 어려움을 해결하기 위해 대규모 언어 모델(LLM)을 활용하는 방법을 제안합니다. OWASP Benchmark(v1.2)와 실제 소프트웨어 프로젝트에서 추출한 데이터셋을 사용하여 LLM이 진짜 양성(TP) 비율을 유지하면서 가양성(FP)을 줄이는 능력을 조사했습니다. Chain-of-Thought 및 Self-Consistency와 같은 고급 프롬프팅 기법이 FP 탐지를 상당히 향상시킨다는 것을 발견했습니다. 특히, 일부 LLM은 진짜 취약점을 놓치지 않고 OWASP Benchmark 데이터셋의 약 62.5%의 FP를 식별했습니다. 다양한 LLM의 탐지를 결합하면 이 FP 탐지율이 약 78.9%로 증가했습니다. 또한, 5개의 SAST 도구, 3개의 프로그래밍 언어 및 인프라 파일을 포함하는 실제 데이터셋을 사용하여 본 접근 방식의 일반화 가능성을 보여주었습니다. 최고 성능의 LLM은 진짜 취약점을 놓치지 않고 모든 FP의 33.85%를 탐지했으며, 여러 LLM의 탐지를 결합하면 탐지율이 38.46%로 증가했습니다. 이러한 결과는 LLM이 기존 SAST 도구를 보완하여 자동화를 향상시키고 오경보 해결에 소요되는 리소스를 줄일 수 있는 잠재력을 강조합니다.