[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

MERA कोड: विभिन्न कार्यों में कोड निर्माण के मूल्यांकन के लिए एक एकीकृत ढाँचा

Created by
  • Haebom

लेखक

आर्टेम चेरव्याकोव, अलेक्जेंडर खारिटोनोव, पावेल ज़ादोरोज़्नी, एडमेंको पावेल, रोडियन लेविचेव, दिमित्री वोरोबेव, दिमित्री सालिखोव, ऐदर वलेव, अलीना पेस्टोवा, मारिया डिज़ुबा, इलसेयार अलीमोवा, आर्टेम ज़वगोरोडनेव, अलेक्जेंडर मेदवेदेव, स्टानिस्लाव मोइसेव, एलेना ब्रुचेस, डेनियल ग्रीबेनकिन, रोमन डेरुनेट्स, विकुलोव व्लादिमीर, एंटोन एमिलीनोव, दिमित्री बाबाएव, व्लादिमीर वी. इवानोव, वैलेन्टिन मालीख, अलीना फेनोजेनोवा

रूपरेखा

MERA कोड, नए MERA बेंचमार्क का एक अतिरिक्त संस्करण है, जिसे विशेष रूप से रूसी भाषा में आधुनिक कोड-जनरेटिंग LLMs के मूल्यांकन के लिए डिज़ाइन किया गया है। इसमें 8 प्रोग्रामिंग भाषाओं का उपयोग करते हुए 11 मूल्यांकन कार्य शामिल हैं, ताकि इस समस्या का समाधान किया जा सके कि मौजूदा LLM मूल्यांकन प्राकृतिक भाषा प्रसंस्करण पर केंद्रित होते हैं और कोड की गुणवत्ता को नज़रअंदाज़ कर देते हैं। यह वास्तविक दुनिया के कोडिंग कौशलों का एक वर्गीकरण और एक ओपन-सोर्स कोडबेस प्रदान करता है जिसमें एक स्कोरिंग सिस्टम, लीडरबोर्ड और विभिन्न प्रोग्रामिंग वातावरणों के अनुकूल सबमिशन सिस्टम शामिल है। यह गैर-अंग्रेजी भाषाओं में वास्तविक दुनिया के कोडिंग कार्यों पर LLMs की सीमाओं का विश्लेषण करने, भविष्य के अनुसंधान के लिए दिशानिर्देश प्रदान करने, मॉडल विकास में सफलताओं का पूर्वानुमान लगाने और मूल्यांकन प्रक्रिया को मानकीकृत करने के लिए सार्वजनिक रूप से वितरित किया जाता है।

____T34082_____, ____T34083_____

Takeaways:
रूसी सहित गैर-अंग्रेजी भाषाओं में एलएलएम कोड निर्माण का आकलन करने के लिए मानकीकृत बेंचमार्क प्रदान करना।
एक नई मूल्यांकन पद्धति प्रस्तुत की जा रही है जो वास्तविक कोडिंग कौशल के मूल्यांकन पर केंद्रित है।
ओपन सोर्स कोड बेस और लीडरबोर्ड प्रदान करके अनुसंधान सक्रियण और सहयोगात्मक अनुसंधान संभावनाओं को बढ़ाएं।
एलएलएम की वास्तविक दुनिया की कोडिंग क्षमताओं और सीमाओं की गहरी समझ हासिल करें।
Limitations:
फिलहाल इसका ध्यान रूसी भाषा पर केन्द्रित है, लेकिन इसे अन्य भाषाओं में भी विस्तारित करने की आवश्यकता है।
मूल्यांकन कार्यों का दायरा सीमित हो सकता है। अधिक विविध प्रोग्रामिंग भाषाओं और कार्यों को जोड़ने की आवश्यकता है।
बेंचमार्क को निरंतर रखरखाव और अद्यतन की आवश्यकता होती है।
👍