दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डीपस्कॉलर-बेंच: जनरेटिव रिसर्च सिंथेसिस के लिए एक लाइव बेंचमार्क और स्वचालित मूल्यांकन

Created by
  • Haebom

लेखक

लियाना पटेल, नेगर अरबज़ादेह, हर्षित गुप्ता, अंकिता सुंदर, आयन स्टोइका, मातेई ज़हरिया, कार्लोस गेस्ट्रिन

रूपरेखा

यह शोधपत्र डीपस्कॉलर-बेंच का प्रस्ताव करता है, जो जनरेटिव रिसर्च सिंथेसिस सिस्टम के मूल्यांकन हेतु एक नवीन मानक है। मौजूदा प्रश्न-उत्तर मानक संक्षिप्त, तथ्यात्मक प्रतिक्रियाओं पर केंद्रित होते हैं, और उनके विशेषज्ञ-संकलित डेटासेट अक्सर पुराने या डेटा संदूषण से ग्रस्त होते हैं, जो वास्तविक दुनिया के शोध संश्लेषण कार्यों की जटिलता और विकासशील प्रकृति को पर्याप्त रूप से समझने में विफल रहते हैं। डीपस्कॉलर-बेंच नवीनतम, उच्च-गुणवत्ता वाले ArXiv लेखों से क्वेरीज़ निकालने और प्रासंगिक शोध अनुभाग बनाने के वास्तविक दुनिया के शोध संश्लेषण कार्य पर केंद्रित है। इसमें प्रासंगिक शोध को पुनः प्राप्त करना, उसका संश्लेषण करना और उसका हवाला देना शामिल है। मूल्यांकन ढाँचा तीन प्रमुख पहलुओं का व्यापक मूल्यांकन करता है: ज्ञान संश्लेषण, पुनर्प्राप्ति गुणवत्ता और सत्यापन योग्यता। हम डीपस्कॉलर-बेस भी विकसित करते हैं, जो लोटस एपीआई का उपयोग करके एक कुशलतापूर्वक कार्यान्वित संदर्भ पाइपलाइन है, और डीपस्कॉलर-बेंच ढाँचे का उपयोग करके मौजूदा ओपन-सोर्स सिस्टम, सर्च एआई, ओपनएआई के डीपरिसर्च और डीपस्कॉलर-बेस का व्यवस्थित मूल्यांकन करते हैं। हम पाते हैं कि डीपस्कॉलर-बेस एक मज़बूत आधार रेखा स्थापित करता है जो प्रतिस्पर्धी या बेहतर प्रदर्शन प्राप्त करता है। इससे पता चलता है कि डीपस्कॉलर-बेंच अभी संतृप्त नहीं है, क्योंकि कोई भी सिस्टम किसी भी मीट्रिक में $19$ से अधिक नहीं है।

Takeaways, Limitations

Takeaways:
डीपस्कॉलर-बेंच, जनरेटिव अनुसंधान प्रणालियों के मूल्यांकन के लिए एक नया मानक प्रस्तुत किया गया है।
वास्तविक अनुसंधान कार्यों को प्रतिबिंबित करने वाला बेंचमार्क डिज़ाइन यथार्थवादी मूल्यांकन को सक्षम बनाता है।
डीपस्कॉलर-बेस नामक एक शक्तिशाली संदर्भ प्रणाली प्रस्तुत की जा रही है
जनरेटिव अनुसंधान के क्षेत्र के विकास के लिए महत्वपूर्ण मानदंड प्रदान करना
ओपन सोर्स कोड प्रकटीकरण के माध्यम से अनुसंधान की मापनीयता में वृद्धि
Limitations:
डीपस्कॉलर-बेंच का स्कोर अभी भी कम है (सर्वोत्तम से 19% से भी कम), जिससे सुधार की काफी गुंजाइश है।
ArXiv पेपर तक सीमित डेटासेट के साथ सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
मूल्यांकन संकेतकों की व्यापक प्रकृति के बावजूद, अन्य पहलुओं के अतिरिक्त मूल्यांकन की आवश्यकता है।
LOTUS API निर्भरता के कारण संभावित पहुँच सीमाएँ
👍