दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बीएमएमआर: एक बड़े पैमाने का द्विभाषी बहुविध बहु-विषयक तर्क डेटासेट

Created by
  • Haebom

लेखक

झिहेंग शी, गुआन्यू ली, युताओ फैन, होंगलिन गुओ, युफांग लियू, ज़ियाओरान फैन, जियाकी लियू, जिंगचाओ डिंग, वांगमेंग ज़ुओ, झेनफेई यिन, लेई बाई, ताओ जी, ताओ गुई, क्यूई झांग, फिलिप टोर, जुआनजिंग हुआंग

रूपरेखा

BMMR एक बड़े पैमाने का बहुभाषी, बहुविध, बहु-विषयक अनुमान डेटासेट है जिसमें बड़े पैमाने के बहुविध मॉडल (LMM) के विकास और मूल्यांकन के लिए 110,000 विश्वविद्यालय-स्तरीय प्रश्न शामिल हैं। यह यूनेस्को द्वारा परिभाषित 300 विषयों को शामिल करता है और इसमें बहुविकल्पीय, रिक्त स्थान भरने वाले और लघु-उत्तरीय प्रश्नों जैसे विभिन्न स्वरूपों के प्रश्न और पुस्तकों, परीक्षाओं और प्रश्नोत्तरी जैसे विभिन्न स्रोतों से प्राप्त डेटा शामिल हैं। इसे मानवीय हस्तक्षेप पर आधारित एक स्केलेबल ढाँचे के माध्यम से क्यूरेट और फ़िल्टर किया जाता है, और प्रत्येक उदाहरण एक उच्च-गुणवत्ता वाले अनुमान पथ से जुड़ा होता है। डेटासेट को BMMR-Eval में विभाजित किया गया है, जिसमें LMM के ज्ञान और अनुमान क्षमता के व्यापक मूल्यांकन के लिए 20,458 उच्च-गुणवत्ता वाले उदाहरण शामिल हैं, और BMMR-Train में आगे के अनुसंधान और विकास का समर्थन करने के लिए 88,991 उदाहरण शामिल हैं। हम सटीक और सूक्ष्म अनुमान पथ मूल्यांकन के लिए एक प्रक्रिया-आधारित बहु-विषयक सत्यापनकर्ता (BMMR-Verifier) ​​का भी प्रस्ताव करते हैं। 24 मॉडलों पर किए गए प्रायोगिक परिणामों से पता चलता है कि अत्याधुनिक मॉडलों में भी BMMR-Eval में सुधार की काफी गुंजाइश है। अनुमान मॉडल केवल विशिष्ट विषयों पर ही LMM से बेहतर प्रदर्शन करते हैं, और ओपन-सोर्स मॉडल, मालिकाना मॉडलों से कमतर प्रदर्शन करते हैं, लेकिन BMMR-Train के साथ फाइन-ट्यूनिंग करने से प्रदर्शन का अंतर कम हो जाता है। आगे के गहन अध्ययन, जिनमें BMMR-Verifier का उपयोग करके अनुमान श्रृंखलाओं का विश्लेषण भी शामिल है, बहु-विषयक अनुमान में LMM के सामने आने वाली वर्तमान चुनौतियों को उजागर करते हैं। डेटासेट सार्वजनिक किया जाएगा।

Takeaways, Limitations

Takeaways:
बड़े पैमाने के मल्टीमॉडल मॉडल (एलएमएम) की बहुविषयक अनुमान क्षमता के मूल्यांकन के लिए एक नया बेंचमार्क डेटासेट बीएमएमआर प्रदान करना
अत्याधुनिक एलएमएम की प्रदर्शन सीमाएँ और सुधार दिशाएँ प्रस्तुत करना
बहुविषयक अनुमान में मॉडल पूर्वाग्रह और ओपन सोर्स और मालिकाना मॉडल के बीच प्रदर्शन अंतर
BMMR-ट्रेन का उपयोग करके फाइन-ट्यूनिंग की प्रभावशीलता की पुष्टि
एलएमएम के बहुविषयक अनुमान कार्यों की गहन समझ प्रदान करता है
Limitations:
डेटासेट के आकार के बावजूद, अत्याधुनिक मॉडल अभी भी बहु-विषयक अनुमान पर पूरी तरह से प्रदर्शन नहीं करते हैं।
विशिष्ट विषयों के लिए अनुमान मॉडल में लगातार पूर्वाग्रह के मुद्दे
ओपन सोर्स और स्वामित्व मॉडल के बीच प्रदर्शन संबंधी अंतर है (लेकिन इसे फाइन-ट्यूनिंग से आंशिक रूप से हल किया जा सकता है)।
👍