दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पिन: युग्मित और इंटरलीव्ड मल्टीमॉडल दस्तावेज़ों के लिए एक ज्ञान-गहन डेटासेट

Created by
  • Haebom

लेखक

जुन्जी वांग, युक्सियांग झांग, मिंगहाओ लियू, यिन झांग, याताई जी, वेइहाओ जुआन, नी लिन, कांग झू, झिकियांग लिन, यिमिंग रेन, चुनयांग जियांग, यियाओ यू, ज़ेकुन वांग, टाईज़ेन वांग, वेन्हाओ हुआंग, जी फू, कुन्शू लियू, युजिउ यांग, जीई झांग, रुइबिन युआन, बेई चेन, वेन्हु चेन

रूपरेखा

यह शोधपत्र दृश्य और मौखिक जानकारी के एकीकरण को बढ़ाने के लिए एक नए डेटा प्रारूप, PIN (युग्मित और अंतर्संबंधित बहुविध दस्तावेज़) का प्रस्ताव करता है। PIN, अर्थपूर्ण रूप से समृद्ध मार्कडाउन फ़ाइलों को संपूर्ण दस्तावेज़ लेआउट को समाहित करने वाली छवियों के साथ संयोजित करके दृश्य और पाठ्य जानकारी के गहन एकीकरण को सुगम बनाता है। इस प्रारूप के आधार पर, हम दो बड़े पैमाने के ओपन-सोर्स डेटासेट, PIN-200M (लगभग 20 करोड़ दस्तावेज़) और PIN-14M (लगभग 1.4 करोड़ दस्तावेज़) जारी करते हैं, जिन्हें विभिन्न वेब और वैज्ञानिक स्रोतों से अंग्रेजी और चीनी में एकत्र किया गया है। इन डेटासेट में विस्तृत सांख्यिकीय विश्लेषण और गुणवत्ता संकेत शामिल हैं, जो शोधकर्ताओं को विशिष्ट कार्यों के लिए उपयुक्त डेटा को आसानी से फ़िल्टर और चुनने में सक्षम बनाते हैं। यह पूर्व-प्रशिक्षण रणनीतियों और ज्ञान-गहन बड़े पैमाने के बहुविध मॉडल (LMM) के विकास पर नए शोध के लिए एक आधार प्रदान करता है।

Takeaways, Limitations

Takeaways:
हम एक नए मल्टीमॉडल डेटा प्रारूप, पिन का प्रस्ताव करते हैं, जो दृश्य और पाठ्य सूचना के गहन एकीकरण को सक्षम बनाता है।
बड़े पैमाने पर ओपन-सोर्स मल्टीमॉडल डेटासेट PIN-200M और PIN-14M प्रदान करके LMM अनुसंधान में योगदान करें।
विस्तृत सांख्यिकीय विश्लेषण और गुणवत्ता संकेत प्रदान करके डेटा प्रयोज्यता बढ़ाएँ।
उन्नत एलएमएम पूर्व-प्रशिक्षण रणनीतियों का सुझाव देना तथा ज्ञान-प्रधान एलएमएम के विकास में योगदान देने की उनकी क्षमता का सुझाव देना।
Limitations:
डेटासेट की गुणवत्ता और विविधता का आगे मूल्यांकन आवश्यक हो सकता है।
पिन प्रारूपों की सामान्य स्वीकृति और अनुकूलता पर आगे अनुसंधान की आवश्यकता हो सकती है।
विशिष्ट भाषाओं (अंग्रेजी और चीनी) के प्रति पक्षपाती डेटासेट के निर्माण पर विचार करने की आवश्यकता हो सकती है।
👍