यह शोधपत्र SWE-बेंच वेरिफाइड में खामियों को उजागर करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) की सॉफ्टवेयर इंजीनियरिंग क्षमताओं के मूल्यांकन हेतु एक मानक है। हालाँकि हाल के LLM, SWE-बेंच पर उच्च प्रदर्शन प्रदर्शित करते हैं, यह वास्तविक समस्या-समाधान क्षमता के बजाय डेटा याद रखने या संदूषण के कारण हो सकता है। इसकी पुष्टि के लिए, शोधपत्र दो निदानात्मक कार्य प्रस्तुत करता है: केवल समस्या विवरणों के आधार पर फ़ाइल पथों की पहचान करना और केवल वर्तमान फ़ाइल संदर्भ और समस्या विवरणों के आधार पर फ़ंक्शनों का पुनरुत्पादन करना। प्रायोगिक परिणाम दर्शाते हैं कि जहाँ अत्याधुनिक मॉडल SWE-बेंच में शामिल डेटा पर उच्च सटीकता प्रदर्शित करते हैं, वहीं शामिल न किए गए डेटा पर उनकी सटीकता तेज़ी से गिर जाती है, जिससे SWE-बेंच के मूल्यांकन परिणामों की विश्वसनीयता को लेकर चिंताएँ बढ़ जाती हैं। यह LLM कोडिंग क्षमताओं के मूल्यांकन हेतु एक अधिक सुदृढ़ और संदूषण-प्रतिरोधी मानक की आवश्यकता को उजागर करता है।