본 논문은 OpenAI의 GPT 모델, 특히 GPT-4를 사용하여 변형 관계(MRs)를 생성하고 평가하는 것을 심층적으로 조사합니다. 기존 연구에서 채택된 특정 시스템(SUT)에 대해 GPT-3.5와 GPT-4가 생성한 MR의 품질을 검토하고, 다양한 SUT에 적용 가능한 향상된 평가 기준을 제시하고 적용하는 것을 목표로 합니다. GPT-3.5와 GPT-4가 생성한 MR을 기존 평가 기준으로 평가한 후, 단순 프로그램부터 AI/ML 구성 요소를 포함하는 복잡한 시스템까지 다양한 9개의 SUT에 대해 GPT-4가 생성한 MR에 향상된 평가 프레임워크를 적용합니다. 자체 제작한 GPT 평가자와 인간 평가자를 사용하여 자동화된 평가 방법과 인간 평가 방법을 직접 비교합니다. 결과적으로 GPT-4가 GPT-3.5보다 정확하고 유용한 MR을 생성하는 것으로 나타났으며, 향상된 평가 기준을 사용한 GPT-4는 AI/ML 구성 요소를 포함한 광범위한 SUT에 걸쳐 고품질 MR을 생성하는 능력을 보여줍니다. 결론적으로 GPT-4는 다양한 애플리케이션에 적합한 MR을 생성하는 고급 기능을 보유하고 있으며, 소프트웨어 테스트에서 AI의 잠재력, 특히 MR의 생성 및 평가에서의 잠재력을 강조하고, 이 분야에서 인간과 AI 기술의 상호 보완성을 지적합니다.