본 논문은 GPT-3.5와 GPT-4를 포함한 대규모 언어 모델(LLM)이 안전한 코드를 생성하는 능력에 대한 체계적인 조사를 제시합니다. 4개의 인기 있는 LLM(GPT-3.5, GPT-4, Code Llama, CodeGeeX2)이 생성한 4,900개의 코드를 분석하여 LLM의 취약점 식별 및 수정 능력을 평가했습니다. 연구 결과, LLM은 상황 관련 보안 위험에 대한 인식이 부족하여 SecurityEval 벤치마크에서 75% 이상의 취약한 코드를 생성하며, 자체 생성 코드의 취약점을 정확하게 식별하지 못하는 것으로 나타났습니다. GPT-3.5와 GPT-4는 다른 LLM이 생성한 불안전한 코드를 33.2%59.6%의 성공률로 수정했지만, 자체 생성 코드 수정에서는 성능이 저조했습니다. 이러한 한계를 해결하기 위해, 본 논문에서는 반복적인 수정 절차를 기반으로 LLM이 더 안전한 소스 코드를 생성하도록 돕는 경량 도구를 개발했습니다. 이 도구는 의미 분석 엔진의 지원을 받아 수정 성공률을 65.9%85.5%로 크게 향상시켰습니다.