दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रूब्रिक ही आपकी ज़रूरत है: प्रश्न-विशिष्ट रूब्रिक के साथ एलएलएम-आधारित कोड मूल्यांकन को बेहतर बनाना

Created by
  • Haebom

लेखक

आदित्य पाठक, रचित गांधी, वैभव उत्तम, अर्नव राममूर्ति, प्रत्यूष घोष, आर्यन राज जिंदल, श्रेयश वर्मा, आदित्य मित्तल, आशना असद, चिराग खत्री, यशवन्त नक्का, देवांश, जगत शेष चल्ला, ध्रुव कुमार

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) का उपयोग करके कोड मूल्यांकन पर केंद्रित है और एक नवीन बहु-एजेंट-आधारित दृष्टिकोण का प्रस्ताव करता है जो पारंपरिक प्रश्न-अज्ञेय रूब्रिक के बजाय प्रश्न-विशिष्ट रूब्रिक का उपयोग करता है। हालाँकि पिछले शोध एलएलएम का उपयोग करके कोड निर्माण पर केंद्रित रहे हैं, कोड मूल्यांकन पर शोध अभी भी कम है, और यह शोधपत्र इसी कमी को पूरा करने का प्रयास करता है। पर्याप्त मूल्यांकन डेटासेट की कमी को दूर करने के लिए, हम दो नए डेटासेट प्रस्तुत करते हैं: एक डेटा संरचनाओं और एल्गोरिदम कार्यों (150 प्रस्तुतियाँ) के लिए और दूसरा ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग कार्यों (80 प्रस्तुतियाँ) के लिए। स्पीयरमैन के सहसंबंध गुणांक और कोहेन के कप्पा गुणांक जैसे मानक मेट्रिक्स के अलावा, हम एक नवीन मेट्रिक्स, "उदारता" का प्रस्ताव करते हैं, जो विशेषज्ञ मूल्यांकनों की कठोरता को मापता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि प्रश्न-विशिष्ट रूब्रिक शैक्षिक परिवेश में कोड के तार्किक मूल्यांकन को बेहतर बनाते हैं, बेहतर प्रतिक्रिया प्रदान करते हैं जो केवल वाक्यगत शुद्धता से आगे बढ़कर शैक्षिक उद्देश्यों के अनुरूप होती है।

Takeaways, Limitations

Takeaways:
एलएलएम-आधारित कोड मूल्यांकन में प्रश्न-विशिष्ट रूब्रिक्स की उपयोगिता का प्रदर्शन करना।
शैक्षिक वातावरण में एलएलएम का उपयोग करके कोड मूल्यांकन के लिए नई संभावनाएं प्रस्तुत करना।
कोड मूल्यांकन की कठोरता को मापने के लिए एक नए मीट्रिक 'लीनिएन्सी' का प्रस्ताव।
डेटा संरचनाओं और एल्गोरिदम और ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग के क्षेत्र में एक नया मूल्यांकन डेटासेट प्रदान करना।
Limitations:
प्रस्तुत डेटासेट का आकार अपेक्षाकृत छोटा है।
विभिन्न प्रोग्रामिंग भाषाओं और कार्य प्रकारों में सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
'उदारता' सूचक की निष्पक्षता और विश्वसनीयता का और अधिक सत्यापन आवश्यक है।
प्रश्न-विशिष्ट मूल्यांकन मानदंड निर्माण की दक्षता को स्वचालित और बेहतर बनाने की आवश्यकता है।
👍