यह शोधपत्र निजी GPT (GPT) की आवश्यकताओं से स्वचालित रूप से निष्पादन योग्य परीक्षण कोड उत्पन्न करने की क्षमता की जाँच करता है। विशेष रूप से, हम एक ऐसी विधि प्रस्तुत करते हैं जो उत्पाद स्वामियों या व्यावसायिक बुद्धिमत्ता (BI) को LLM का उपयोग करके सीधे परीक्षण योग्य मानदंड उत्पन्न करने की अनुमति देती है, जिसमें आधुनिक विकास प्रक्रियाओं में आमतौर पर उपयोग किए जाने वाले महाकाव्यों या कहानियों के भाग के रूप में औपचारिक स्वीकृति मानदंडों का उपयोग किया जाता है। हम दो विधियों का उपयोग करके उत्पन्न परीक्षणों की गुणवत्ता का मूल्यांकन करते हैं: LLM द्वारा आवश्यकताओं से सीधे कोड उत्पन्न करना और Gherkin सिंटैक्स का उपयोग करके एक मध्यवर्ती चरण। परिणाम दर्शाते हैं कि दो-चरणीय प्रक्रिया मानवीय पठनीयता और सर्वोत्तम कोडिंग प्रथाओं (कोड की पंक्तियों की संख्या और परीक्षण में आमतौर पर उपयोग की जाने वाली अतिरिक्त लाइब्रेरीज़ का उपयोग) के संदर्भ में बेहतर परिणाम देती है। हम विशेष रूप से दो परिदृश्यों में संकेतों की प्रभावशीलता का मूल्यांकन करते हैं: एक "हैलो वर्ल्ड" प्रोग्राम और एक संख्यात्मक वर्गीकरण मॉडल, जो दर्शाता है कि संरचित संकेत उच्च-गुणवत्ता वाले परीक्षण आउटपुट की ओर ले जाते हैं।