दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

LoCoBench: जटिल सॉफ्टवेयर इंजीनियरिंग में दीर्घ-संदर्भ वृहद भाषा मॉडल के लिए एक बेंचमार्क

Created by
  • Haebom

लेखक

जीलिन किउ, ज़क्सिन लियू, झिवेई लियू, रितेश मूर्ति, जियांगुओ झांग, हाओलिन चेन, शियू वांग, मिंग झू, लियांगवेई यांग, जुंताओ टैन, झेपेंग सेन, चेंग कियान, शेल्बी हेनेके, वीरान याओ, सिल्वियो सावरेसे, कैमिंग जिओंग, हुआन वांग

रूपरेखा

LoCoBench एक व्यापक बेंचमार्क है जिसे विशेष रूप से यथार्थवादी और जटिल सॉफ्टवेयर विकास परिदृश्यों के तहत लाखों टोकन तक पहुँचने वाली लंबी संदर्भ विंडो वाले दीर्घ-संदर्भ भाषा मॉडल (LLM) का मूल्यांकन करने के लिए डिज़ाइन किया गया है। मौजूदा कोड मूल्यांकन बेंचमार्क के विपरीत, जो एकल-फ़ंक्शन पूर्णता या लघु-संदर्भ कार्यों पर ध्यान केंद्रित करते हैं, LoCoBench संपूर्ण कोडबेस को समझने, कई फ़ाइलों में तर्क करने और बड़े पैमाने की सॉफ्टवेयर प्रणालियों में वास्तुशिल्प स्थिरता बनाए रखने के लिए आवश्यक दीर्घ-संदर्भ सुविधाओं के लिए महत्वपूर्ण मूल्यांकन अंतराल को संबोधित करता है। यह 10 प्रोग्रामिंग भाषाओं में 8,000 व्यवस्थित रूप से उत्पन्न मूल्यांकन परिदृश्य प्रदान करता है, जिसमें संदर्भ लंबाई 10,000 से 1 मिलियन टोकन तक होती है, जो 100 गुना भिन्नता का प्रतिनिधित्व करती है, पाँच-चरणीय पाइपलाइन के माध्यम से, यह विविध और उच्च-गुणवत्ता वाले परिदृश्यों का एक सेट तैयार करता है जिसके लिए LLMs को अभूतपूर्व पैमाने पर जटिल कोडबेस पर तर्क करने की आवश्यकता होती है। हम एक व्यापक मूल्यांकन ढाँचा प्रस्तुत करते हैं, जिसमें चार आयामों में 17 मेट्रिक्स (आठ नए मूल्यांकन मेट्रिक्स सहित) और LoCoBench स्कोर (LCBS) शामिल हैं। अत्याधुनिक दीर्घ-संदर्भ मॉडलों के विरुद्ध मूल्यांकन परिणाम एक महत्वपूर्ण प्रदर्शन अंतर को प्रकट करते हैं, जो जटिल सॉफ़्टवेयर विकास में संदर्भ समझ की महत्वपूर्ण अपूर्ण आवश्यकता को उजागर करता है। LoCoBench https://github.com/SalesforceAIResearch/LoCoBench पर जारी किया जाएगा ।

____T9991_____, ____T9992_____

Takeaways:
हम वास्तविक दुनिया के सॉफ्टवेयर विकास परिदृश्यों में दीर्घकालिक एलएलएम के प्रदर्शन का व्यापक मूल्यांकन करने के लिए एक नया बेंचमार्क प्रदान करते हैं।
संदर्भगत समझ में महत्वपूर्ण अनसुलझे मुद्दों को उजागर करके, हम भविष्य के अनुसंधान की दिशाएं सुझाते हैं।
प्रोग्रामिंग भाषाओं और कार्य प्रकारों की एक विस्तृत श्रृंखला का समर्थन करता है, जिससे मूल्यांकन की एक विस्तृत श्रृंखला सक्षम होती है।
100 गुना तक के प्रासंगिक लंबाई परिवर्तनों के माध्यम से प्रासंगिक प्रदर्शन गिरावट का सटीक विश्लेषण।
नये मूल्यांकन संकेतकों के माध्यम से अधिक परिष्कृत मूल्यांकन संभव है।
Limitations:
बेंचमार्क निर्माण प्रक्रिया और मूल्यांकन मेट्रिक्स के डिजाइन के विस्तृत विवरण का अभाव (अधिक जानकारी की आवश्यकता है)।
वर्तमान में मूल्यांकित मॉडलों का प्रकार और संख्या सीमित हो सकती है (अतिरिक्त मॉडल मूल्यांकन की आवश्यकता है)।
यह वास्तविक दुनिया के सॉफ्टवेयर विकास के सभी पहलुओं को पूरी तरह से प्रतिबिंबित नहीं कर सकता है (कुछ परिदृश्यों को सीमित कर सकता है)।
👍