본 논문은 Python과 같은 동적 언어에서, 특히 널리 사용되는 오픈소스 프로젝트의 심각한 보안 위협인 명령어 주입 취약성을 검출하기 위한 대규모 언어 모델(LLM)의 활용 가능성을 평가한다. Django, Flask, TensorFlow, Scikit-learn, PyTorch, Langchain 등 GitHub의 50,000개 이상의 스타를 받은 6개의 주요 프로젝트를 대상으로 GPT-4와 같은 LLM을 이용한 취약성 탐지 자동화 테스트를 수행했다. LLM의 장점과 한계, 탐지 정확도, 효율성, 개발 워크플로우 통합 가능성 등을 분석하고, 보안 애플리케이션에 가장 적합한 LLM 도구를 비교 분석하여 개발자와 보안 연구자에게 LLM 기반의 혁신적인 자동화된 소프트웨어 보안 강화 방안을 제시한다.