[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

SWE-MERA: सॉफ्टवेयर इंजीनियरिंग कार्यों पर बड़े भाषा मॉडल का एजेंटिक मूल्यांकन करने के लिए एक गतिशील बेंचमार्क

Created by
  • Haebom

लेखक

पावेल एडमेंको, मिखाइल इवानोव, ऐदर वलेव, रोडियन लेविचेव, पावेल ज़ादोरोज़्नी, इवान लोपाटिन, दिमित्री बाबायेव, अलीना फेनोजेनोवा, वैलेन्टिन मालीख

रूपरेखा

यह पत्र सॉफ्टवेयर इंजीनियरिंग में उपयोग किए जाने वाले मौजूदा बेंचमार्क की कमियों को इंगित करता है, विशेष रूप से SWE-बेंच डेटासेट Limitations, और उन्हें हल करने के लिए एक नया बेंचमार्क, SWE-MERA प्रस्तावित करता है। SWE-बेंच में गंभीर डेटा प्रदूषण की समस्याएं हैं (प्रत्यक्ष समाधान रिसाव और अनुपयुक्त परीक्षण मामले), जो विश्वसनीयता को कम करता है, और SWE-MERA का लक्ष्य वास्तविक GitHub मुद्दों को स्वचालित रूप से एकत्र करके और कठोर गुणवत्ता सत्यापन का संचालन करके इन समस्याओं को हल करना है। यह वर्तमान में लगभग 10,000 संभावित कार्य और 300 नमूने प्रदान करता है, और Aider कोडिंग एजेंट का उपयोग करके मूल्यांकन के परिणाम स्पष्ट रूप से अत्याधुनिक LLM के प्रदर्शन अंतर को दर्शाते हैं। हम सितंबर 2024 से जून 2025 तक एकत्र किए गए कार्यों पर एक दर्जन से अधिक अत्याधुनिक LLM के प्रदर्शन का मूल्यांकन करते हैं।

Takeaways, Limitations

Takeaways:
हम मौजूदा SWE-बेंच डेटासेट में डेटा संदूषण के मुद्दों को उजागर करते हैं और एक नए बेंचमार्क की आवश्यकता का सुझाव देते हैं।
हम वास्तविक GitHub मुद्दों का उपयोग करके एक व्यावहारिक बेंचमार्क SWE-MERA का प्रस्ताव करते हैं और एक स्वचालित डेटा संग्रह और गुणवत्ता सत्यापन पाइपलाइन का निर्माण करते हैं।
हम विभिन्न अत्याधुनिक एलएलएम के प्रदर्शन की तुलना और मूल्यांकन करते हैं तथा मॉडल के विभेदीकरण को प्रदर्शित करते हैं।
निरंतर अद्यतन गतिशील बेंचमार्क के माध्यम से सॉफ्टवेयर इंजीनियरिंग में एलएलएम की उन्नति में योगदान दें।
Limitations:
बेंचमार्क का पैमाना सीमित है, वर्तमान में 10,000 संभावित कार्यों में से केवल 300 नमूने ही उपलब्ध हैं।
SWE-MERA की गुणवत्ता आश्वासन प्रक्रिया के बारे में विशिष्ट विवरणों का अभाव हो सकता है।
मूल्यांकन परिणाम किसी विशिष्ट कोडिंग एजेंट पर निर्भर हो सकते हैं।
चूंकि यह डेटासेट GitHub मुद्दों पर आधारित है, इसलिए यह कुछ प्रकार की सॉफ्टवेयर इंजीनियरिंग समस्याओं के प्रति पक्षपाती हो सकता है।
👍