यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
LoCoBench एक व्यापक बेंचमार्क है जिसे विशेष रूप से यथार्थवादी और जटिल सॉफ्टवेयर विकास परिदृश्यों के तहत लाखों टोकन तक पहुँचने वाली लंबी संदर्भ विंडो वाले दीर्घ-संदर्भ भाषा मॉडल (LLM) का मूल्यांकन करने के लिए डिज़ाइन किया गया है। मौजूदा कोड मूल्यांकन बेंचमार्क के विपरीत, जो एकल-फ़ंक्शन पूर्णता या लघु-संदर्भ कार्यों पर ध्यान केंद्रित करते हैं, LoCoBench संपूर्ण कोडबेस को समझने, कई फ़ाइलों में तर्क करने और बड़े पैमाने की सॉफ्टवेयर प्रणालियों में वास्तुशिल्प स्थिरता बनाए रखने के लिए आवश्यक दीर्घ-संदर्भ सुविधाओं के लिए महत्वपूर्ण मूल्यांकन अंतराल को संबोधित करता है। यह 10 प्रोग्रामिंग भाषाओं में 8,000 व्यवस्थित रूप से उत्पन्न मूल्यांकन परिदृश्य प्रदान करता है, जिसमें संदर्भ लंबाई 10,000 से 1 मिलियन टोकन तक होती है, जो 100 गुना भिन्नता का प्रतिनिधित्व करती है, पाँच-चरणीय पाइपलाइन के माध्यम से, यह विविध और उच्च-गुणवत्ता वाले परिदृश्यों का एक सेट तैयार करता है जिसके लिए LLMs को अभूतपूर्व पैमाने पर जटिल कोडबेस पर तर्क करने की आवश्यकता होती है। हम एक व्यापक मूल्यांकन ढाँचा प्रस्तुत करते हैं, जिसमें चार आयामों में 17 मेट्रिक्स (आठ नए मूल्यांकन मेट्रिक्स सहित) और LoCoBench स्कोर (LCBS) शामिल हैं। अत्याधुनिक दीर्घ-संदर्भ मॉडलों के विरुद्ध मूल्यांकन परिणाम एक महत्वपूर्ण प्रदर्शन अंतर को प्रकट करते हैं, जो जटिल सॉफ़्टवेयर विकास में संदर्भ समझ की महत्वपूर्ण अपूर्ण आवश्यकता को उजागर करता है। LoCoBench https://github.com/SalesforceAIResearch/LoCoBench पर जारी किया जाएगा ।