दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एसडब्ल्यूई-बेंच भ्रम: जब अत्याधुनिक एलएलएम तर्क के बजाय याद करते हैं

Created by
  • Haebom

लेखक

शानचाओ लियांग, स्पंदन गर्ग, रोशनक ज़िलोचियन मोघदाम

रूपरेखा

यह शोधपत्र SWE-बेंच वेरिफाइड में खामियों को उजागर करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) की सॉफ्टवेयर इंजीनियरिंग क्षमताओं के मूल्यांकन हेतु एक मानक है। हालाँकि हाल के LLM, SWE-बेंच पर उच्च प्रदर्शन प्रदर्शित करते हैं, यह वास्तविक समस्या-समाधान क्षमता के बजाय डेटा याद रखने या संदूषण के कारण हो सकता है। इसकी पुष्टि के लिए, शोधपत्र दो निदानात्मक कार्य प्रस्तुत करता है: केवल समस्या विवरणों के आधार पर फ़ाइल पथों की पहचान करना और केवल वर्तमान फ़ाइल संदर्भ और समस्या विवरणों के आधार पर फ़ंक्शनों का पुनरुत्पादन करना। प्रायोगिक परिणाम दर्शाते हैं कि जहाँ अत्याधुनिक मॉडल SWE-बेंच में शामिल डेटा पर उच्च सटीकता प्रदर्शित करते हैं, वहीं शामिल न किए गए डेटा पर उनकी सटीकता तेज़ी से गिर जाती है, जिससे SWE-बेंच के मूल्यांकन परिणामों की विश्वसनीयता को लेकर चिंताएँ बढ़ जाती हैं। यह LLM कोडिंग क्षमताओं के मूल्यांकन हेतु एक अधिक सुदृढ़ और संदूषण-प्रतिरोधी मानक की आवश्यकता को उजागर करता है।

Takeaways, Limitations

Takeaways: यह दर्शाता है कि मौजूदा मानक, जैसे कि SWE-बेंच सत्यापित, LLMs की वास्तविक दुनिया की समस्या-समाधान क्षमताओं का सटीक आकलन नहीं कर सकते हैं। LLM प्रदर्शन का मूल्यांकन करने के लिए एक अधिक मज़बूत मानक की आवश्यकता है जो डेटा याद रखने और संदूषण को रोकता हो। एक नई मूल्यांकन पद्धति की आवश्यकता है जो LLMs की सामान्यीकृत समस्या-समाधान क्षमताओं और उनकी स्मरण क्षमता के बीच अंतर कर सके।
Limitations: प्रस्तुत दो निदानात्मक कार्य केवल विशिष्ट प्रकार के समस्या-समाधान कौशल का आकलन कर सकते हैं। एक अधिक व्यापक बेंचमार्क की आवश्यकता है जो सॉफ़्टवेयर इंजीनियरिंग कार्यों की एक विस्तृत श्रृंखला को शामिल करे। इस अध्ययन में प्रयुक्त डेटासेट की विशेषताओं के कारण परिणाम सामान्यीकृत नहीं हो सकते हैं।
👍