यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) का उपयोग करके कोड मूल्यांकन पर केंद्रित है और एक नवीन बहु-एजेंट-आधारित दृष्टिकोण का प्रस्ताव करता है जो पारंपरिक प्रश्न-अज्ञेय रूब्रिक के बजाय प्रश्न-विशिष्ट रूब्रिक का उपयोग करता है। हालाँकि पिछले शोध एलएलएम का उपयोग करके कोड निर्माण पर केंद्रित रहे हैं, कोड मूल्यांकन पर शोध अभी भी कम है, और यह शोधपत्र इसी कमी को पूरा करने का प्रयास करता है। पर्याप्त मूल्यांकन डेटासेट की कमी को दूर करने के लिए, हम दो नए डेटासेट प्रस्तुत करते हैं: एक डेटा संरचनाओं और एल्गोरिदम कार्यों (150 प्रस्तुतियाँ) के लिए और दूसरा ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग कार्यों (80 प्रस्तुतियाँ) के लिए। स्पीयरमैन के सहसंबंध गुणांक और कोहेन के कप्पा गुणांक जैसे मानक मेट्रिक्स के अलावा, हम एक नवीन मेट्रिक्स, "उदारता" का प्रस्ताव करते हैं, जो विशेषज्ञ मूल्यांकनों की कठोरता को मापता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि प्रश्न-विशिष्ट रूब्रिक शैक्षिक परिवेश में कोड के तार्किक मूल्यांकन को बेहतर बनाते हैं, बेहतर प्रतिक्रिया प्रदान करते हैं जो केवल वाक्यगत शुद्धता से आगे बढ़कर शैक्षिक उद्देश्यों के अनुरूप होती है।
Takeaways, Limitations
•
Takeaways:
◦
एलएलएम-आधारित कोड मूल्यांकन में प्रश्न-विशिष्ट रूब्रिक्स की उपयोगिता का प्रदर्शन करना।
◦
शैक्षिक वातावरण में एलएलएम का उपयोग करके कोड मूल्यांकन के लिए नई संभावनाएं प्रस्तुत करना।
◦
कोड मूल्यांकन की कठोरता को मापने के लिए एक नए मीट्रिक 'लीनिएन्सी' का प्रस्ताव।
◦
डेटा संरचनाओं और एल्गोरिदम और ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग के क्षेत्र में एक नया मूल्यांकन डेटासेट प्रदान करना।
•
Limitations:
◦
प्रस्तुत डेटासेट का आकार अपेक्षाकृत छोटा है।
◦
विभिन्न प्रोग्रामिंग भाषाओं और कार्य प्रकारों में सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
◦
'उदारता' सूचक की निष्पक्षता और विश्वसनीयता का और अधिक सत्यापन आवश्यक है।
◦
प्रश्न-विशिष्ट मूल्यांकन मानदंड निर्माण की दक्षता को स्वचालित और बेहतर बनाने की आवश्यकता है।