본 논문은 GPT-4를 이용한 취약점 방지 단위 테스트 자동 생성 가능성을 탐구합니다. VUL4J 데이터셋의 실제 취약점 및 수정 사례를 사용하여, 수정 전후 코드를 바탕으로 GPT-4가 구문적 및 의미적으로 정확한 단위 테스트를 생성할 수 있는지 조사합니다. 코드 맥락의 영향, GPT-4의 자기 수정 능력, 생성된 테스트 케이스의 사용성에 초점을 맞추어 분석합니다. 실험 결과, GPT-4는 도메인 특화 사전 훈련 없이 66.5%의 확률로 구문적으로 정확한 테스트 케이스를 생성하는 것으로 나타났습니다. 의미적 정확성은 7.5%에 그쳤지만, 주관적 평가 결과 GPT-4가 생성한 테스트 템플릿은 최소한의 수동 작업으로 완전한 기능을 갖춘 취약점 확인 테스트로 발전시킬 수 있음을 보여줍니다. 따라서 제한된 데이터에도 불구하고, GPT-4가 취약점 확인 테스트 생성에 효과적으로 사용될 수 있음을 시사합니다. 완전히 자율적으로 작동하지는 않지만, 부분 자동화 과정에서 중요한 역할을 할 수 있습니다.