दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पिन: युग्मित और इंटरलीव्ड मल्टीमॉडल दस्तावेज़ों के लिए एक ज्ञान-गहन डेटासेट

Created by
  • Haebom

लेखक

जुन्जी वांग, युक्सियांग झांग, मिंगहाओ लियू, यिन झांग, याताई जी, वेइहाओ जुआन, नी लिन, कांग झू, झिकियांग लिन, यिमिंग रेन, चुनयांग जियांग, यियाओ यू, ज़ेकुन वांग, टाईज़ेन वांग, वेन्हाओ हुआंग, जी फू, कुन्शु लिन, युजिउ यांग, जीई झांग, रुइबिन युआन, बेई चेन, वेन्हु चेन

रूपरेखा

बड़े पैमाने के मल्टीमॉडल मॉडल (LMM) की सीमाओं को दूर करने के लिए, जो दृश्य और मौखिक जानकारी को एकीकृत करने में कठिनाई का सामना करते हैं, यह शोधपत्र एक नए डेटा प्रारूप, PIN (युग्मित और इंटरलीव्ड मल्टीमॉडल दस्तावेज़) का प्रस्ताव करता है। PIN प्रारूप, अर्थपूर्ण रूप से समृद्ध मार्कडाउन फ़ाइलों को संपूर्ण दस्तावेज़ लेआउट को कैप्चर करने वाली छवियों के साथ संयोजित करके दृश्य और पाठ्य जानकारी के गहन एकीकरण को सुगम बनाता है। इस प्रारूप के आधार पर, हम दो बड़े पैमाने के ओपन-सोर्स डेटासेट जारी करते हैं: PIN-200M ( 20 करोड़ दस्तावेज़) और PIN-14M ( 1.4 करोड़ दस्तावेज़), जो विभिन्न वेब और वैज्ञानिक स्रोतों से अंग्रेजी और चीनी में एकत्र किए गए हैं। ये डेटासेट विस्तृत सांख्यिकीय विश्लेषण और गुणवत्ता संकेत प्रदान करते हैं, जिससे शोधकर्ता विशिष्ट कार्यों के लिए डेटा को आसानी से फ़िल्टर और चुन सकते हैं।

Takeaways, Limitations

Takeaways:
हम एक नए मल्टीमॉडल डेटा प्रारूप, पिन का प्रस्ताव करते हैं, जो दृश्य और पाठ्य सूचना के गहन एकीकरण को सक्षम बनाता है।
बड़े पैमाने पर ओपन-सोर्स मल्टीमॉडल डेटासेट PIN-200M और PIN-14M प्रदान करके LMM अनुसंधान में योगदान करें।
विस्तृत सांख्यिकीय विश्लेषण और गुणवत्ता संकेत प्रदान करके अपने डेटासेट की उपयोगिता बढ़ाएँ।
उन्नत ज्ञान-गहन एलएमएम और पूर्व-प्रशिक्षण रणनीतियों के विकास पर अनुसंधान के लिए आधार प्रदान करता है।
Limitations:
डेटासेट की गुणवत्ता और पूर्वाग्रह का अतिरिक्त विश्लेषण आवश्यक हो सकता है।
पिन प्रारूप की व्यापकता को समझने तथा अन्य मल्टीमॉडल डेटा प्रारूपों के साथ इसकी तुलना करने के लिए एक अध्ययन की आवश्यकता है।
यद्यपि डेटासेट बड़ा है, फिर भी ऐसी संभावना है कि कुछ डोमेन या डेटा प्रकार का प्रतिनिधित्व अधिक हो सकता है।
👍