본 논문은 점점 더 복잡해지는 소프트웨어 시스템에서 소프트웨어 취약점 탐지(SVD) 자동화의 어려움을 해결하기 위해, C/C++로 개발된 대규모 오픈소스 시스템 소프트웨어 프로젝트에서 수집한 데이터셋과 종합적인 평가 프레임워크인 VulnSage를 제시합니다. 기존 데이터셋과 달리, 휴리스틱 노이즈 사전 필터링과 LLM 기반 추론을 결합하여 대표적이고 노이즈가 최소화된 취약점 스펙트럼을 확보합니다. VulnSage는 함수, 파일, 함수 간 상호작용 등 다양한 수준에서 분석을 지원하며, Baseline, Chain-of-Thought, Think, Think & Verify 네 가지 제로샷 프롬프트 전략을 사용합니다. 평가 결과, 구조화된 추론 프롬프트가 LLM 성능을 크게 향상시키며, 특히 Think & Verify는 모호한 응답을 20.3%에서 9.1%로 줄이고 정확도를 높였음을 보여줍니다. 또한 코드 특화 모델이 범용 모델보다 성능이 우수하며, 취약점 유형에 따라 성능 차이가 크게 나타나 모든 보안 상황에서 단일 접근 방식이 우수한 것은 아님을 보여줍니다. 데이터셋과 코드는 GitHub에서 제공됩니다.