본 논문은 대규모 언어 모델(LLM)을 활용하여 요구사항, 테스트 케이스, BDD 시나리오와 같은 QE(Quality Engineering) 아티팩트를 자동 생성하는 방법을 제시한다. LLM이 생성한 아티팩트의 품질을 보장하기 위해, 정량적 메트릭을 사용하여 QE 아티팩트를 기준 설정하고 평가하는 체계적인 기술을 소개한다. 이 기술은 LLM 기반 생성, 역(reverse) 생성, 그리고 명확성, 완전성, 일관성, 테스트 가능성에 대한 루브릭(rubric) 기반의 반복적 개선을 결합한다. 12개의 프로젝트에 대한 실험 결과에 따르면, 역 생성된 아티팩트는 낮은 품질의 입력보다 우수한 성능을 보이며, 양질의 입력에서는 높은 기준을 유지한다. 이 프레임워크는 확장 가능하고 신뢰할 수 있는 QE 아티팩트 검증을 가능하게 하여 자동화와 책임을 연결한다.