यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) अनुप्रयोगों के लिए गुणवत्ता आश्वासन की चुनौतियों पर विचार करता है। हम एलएलएम अनुप्रयोगों को तीन परतों में विभाजित करते हैं: सिस्टम शेल परत, प्रॉम्प्ट ऑर्केस्ट्रेशन परत, और एलएलएम इंफरेंस कोर परत, और प्रत्येक परत के लिए मौजूदा सॉफ्टवेयर परीक्षण विधियों की प्रयोज्यता का मूल्यांकन करते हैं। सॉफ्टवेयर इंजीनियरिंग और एआई में परीक्षण पद्धतियों के बीच अंतर का विश्लेषण करके, हम छह प्रमुख चुनौतियों की पहचान करते हैं और उन्हें हल करने के लिए चार सहयोगी रणनीतियों (रखरखाव, परिवर्तन, एकीकरण और रनटाइम) का प्रस्ताव करते हैं। इसके अलावा, हम एक बंद-लूप, विश्वसनीय गुणवत्ता आश्वासन ढाँचा प्रस्तावित करते हैं जो पूर्व-परिनियोजन सत्यापन और रनटाइम निगरानी के साथ-साथ व्यावहारिक दिशानिर्देशों और प्रोटोकॉल (एआईसीएल: एजेंट इंटरैक्शन कम्युनिकेशन लैंग्वेज) को एलएलएम अनुप्रयोग परीक्षण के मानकीकरण और उपकरणों का समर्थन करने के लिए एकीकृत करता है।
Takeaways, Limitations
•
Takeaways:
◦
हम एलएलएम अनुप्रयोगों की पदानुक्रमित संरचना प्रस्तुत करके और प्रत्येक स्तर के लिए उपयुक्त परीक्षण पद्धतियों का प्रस्ताव देकर एलएलएम अनुप्रयोग परीक्षण के लिए एक व्यवस्थित दृष्टिकोण प्रदान करते हैं।
◦
हम सॉफ्टवेयर इंजीनियरिंग और एआई में परीक्षण पद्धतियों के बीच अंतर का विश्लेषण करते हैं और उन्हें संबोधित करने के लिए सहयोगात्मक रणनीतियों का प्रस्ताव करते हैं।
◦
हम एलएलएम अनुप्रयोग परीक्षण के मानकीकरण और टूलींग की नींव रखने के लिए एक बंद-लूप गुणवत्ता आश्वासन ढांचे और एआईसीएल प्रोटोकॉल का प्रस्ताव करते हैं।
•
Limitations:
◦
प्रस्तावित एआईसीएल प्रोटोकॉल के व्यावहारिक कार्यान्वयन और दक्षता के सत्यापन का अभाव है।
◦
विभिन्न प्रकार के एलएलएम अनुप्रयोगों में सामान्यीकरण का निर्धारण करने के लिए आगे अनुसंधान की आवश्यकता है।
◦
प्रस्तावित सहयोग रणनीति की व्यावहारिक प्रयोज्यता और प्रभावशीलता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।