दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सॉफ्टवेयर विकास और मशीन लर्निंग में एलएलएम-संचालित परीक्षण के लिए निजी जीपीटी

Created by
  • Haebom

लेखक

जैकब जगिएल्स्की, कॉन्सुएलो रोजास, मार्कस एबेल

रूपरेखा

यह शोधपत्र निजी GPT (GPT) की आवश्यकताओं से स्वचालित रूप से निष्पादन योग्य परीक्षण कोड उत्पन्न करने की क्षमता की जाँच करता है। विशेष रूप से, हम एक ऐसी विधि प्रस्तुत करते हैं जो उत्पाद स्वामियों या व्यावसायिक बुद्धिमत्ता (BI) को LLM का उपयोग करके सीधे परीक्षण योग्य मानदंड उत्पन्न करने की अनुमति देती है, जिसमें आधुनिक विकास प्रक्रियाओं में आमतौर पर उपयोग किए जाने वाले महाकाव्यों या कहानियों के भाग के रूप में औपचारिक स्वीकृति मानदंडों का उपयोग किया जाता है। हम दो विधियों का उपयोग करके उत्पन्न परीक्षणों की गुणवत्ता का मूल्यांकन करते हैं: LLM द्वारा आवश्यकताओं से सीधे कोड उत्पन्न करना और Gherkin सिंटैक्स का उपयोग करके एक मध्यवर्ती चरण। परिणाम दर्शाते हैं कि दो-चरणीय प्रक्रिया मानवीय पठनीयता और सर्वोत्तम कोडिंग प्रथाओं (कोड की पंक्तियों की संख्या और परीक्षण में आमतौर पर उपयोग की जाने वाली अतिरिक्त लाइब्रेरीज़ का उपयोग) के संदर्भ में बेहतर परिणाम देती है। हम विशेष रूप से दो परिदृश्यों में संकेतों की प्रभावशीलता का मूल्यांकन करते हैं: एक "हैलो वर्ल्ड" प्रोग्राम और एक संख्यात्मक वर्गीकरण मॉडल, जो दर्शाता है कि संरचित संकेत उच्च-गुणवत्ता वाले परीक्षण आउटपुट की ओर ले जाते हैं।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि LLM का उपयोग स्वचालित रूप से आवश्यकता-आधारित परीक्षण कोड उत्पन्न करने के लिए किया जा सकता है।
हम प्रदर्शित करते हैं कि गेरकिन सिंटैक्स का उपयोग करने वाली दो-चरणीय प्रक्रिया परीक्षण कोड की गुणवत्ता में सुधार करने में प्रभावी है।
हमने पाया कि संरचित संकेतों का परीक्षण कोड निर्माण की गुणवत्ता पर महत्वपूर्ण प्रभाव पड़ा।
उत्पाद स्वामियों या व्यावसायिक बुद्धिमत्ता के लिए परीक्षण मानदंड बनाने की प्रक्रिया को सुव्यवस्थित करने की क्षमता प्रदान करता है।
Limitations:
मूल्यांकन के लिए प्रयुक्त परिदृश्य सीमित हैं (सरल "हैलो वर्ल्ड" प्रोग्राम और संख्यात्मक वर्गीकरण मॉडल)।
विभिन्न प्रकार की आवश्यकताओं और जटिल प्रणालियों के सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
निजी जीपीटी की विशेषताओं और सीमाओं के विशिष्ट स्पष्टीकरण का अभाव।
"बेहतर परिणामों" के लिए मात्रात्मक मेट्रिक्स का अभाव (केवल मानवीय पठनीयता और सर्वोत्तम कोडिंग प्रथाओं के व्यक्तिपरक आकलन पर निर्भर रहना)।
👍