यह पत्र सॉफ्टवेयर इंजीनियरिंग में उपयोग किए जाने वाले मौजूदा बेंचमार्क की कमियों को इंगित करता है, विशेष रूप से SWE-बेंच डेटासेट Limitations, और उन्हें हल करने के लिए एक नया बेंचमार्क, SWE-MERA प्रस्तावित करता है। SWE-बेंच में गंभीर डेटा प्रदूषण की समस्याएं हैं (प्रत्यक्ष समाधान रिसाव और अनुपयुक्त परीक्षण मामले), जो विश्वसनीयता को कम करता है, और SWE-MERA का लक्ष्य वास्तविक GitHub मुद्दों को स्वचालित रूप से एकत्र करके और कठोर गुणवत्ता सत्यापन का संचालन करके इन समस्याओं को हल करना है। यह वर्तमान में लगभग 10,000 संभावित कार्य और 300 नमूने प्रदान करता है, और Aider कोडिंग एजेंट का उपयोग करके मूल्यांकन के परिणाम स्पष्ट रूप से अत्याधुनिक LLM के प्रदर्शन अंतर को दर्शाते हैं। हम सितंबर 2024 से जून 2025 तक एकत्र किए गए कार्यों पर एक दर्जन से अधिक अत्याधुनिक LLM के प्रदर्शन का मूल्यांकन करते हैं।