दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

DOGR: बहुमुखी दृश्य दस्तावेज़ ग्राउंडिंग और रेफ़रिंग की ओर

Created by
  • Haebom

लेखक

यिनान झोउ, युक्सिन चेन, हाओकुन लिन, यिचेन वू, शुयू यांग, झोंगंग क्यूई, चेन मा, ली झू, यिंग शान

रूपरेखा

यह शोधपत्र दृश्य दस्तावेज़ समझ के क्षेत्र में सूक्ष्म समझ और लचीली उपयोगकर्ता सहभागिता के लिए बहुविधीय वृहद-स्तरीय भाषा मॉडल (एमएलएलएम) की आधारभूत संरचना और संदर्भ क्षमताओं के अपर्याप्त विकास पर प्रकाश डालता है। इस समस्या के समाधान के लिए, हम दस्तावेज़ आधारभूत संरचना और संदर्भ डेटा इंजन (DOGR-इंजन) का प्रस्ताव करते हैं। DOGR-इंजन दो प्रकार के उच्च-गुणवत्ता वाले, सूक्ष्म-स्तरीय दस्तावेज़ डेटा उत्पन्न करता है: (1) पाठ स्थानीयकरण और पहचान में सुधार के लिए बहु-कण विश्लेषण डेटा, और (2) संवाद और अनुमान में एमएलएलएम की आधारभूत संरचना और संदर्भ क्षमताओं को बढ़ाने के लिए निर्देश-ट्यूनिंग डेटा। इस डेटा के आधार पर, हम DOGR-बेंच का निर्माण करते हैं, जो तीन दस्तावेज़ प्रकारों (चार्ट, पोस्टर और PDF दस्तावेज़) में सात आधारभूत संरचना और संदर्भ कार्यों को शामिल करने वाला एक बेंचमार्क है। उत्पन्न डेटा का लाभ उठाते हुए, हम DOGR विकसित करते हैं, जो एक मजबूत आधारभूत मॉडल है जो पाठ स्थानीयकरण और पहचान में उत्कृष्ट है और संवाद और अनुमान के दौरान महत्वपूर्ण पाठ्य जानकारी को सटीक रूप से आधारभूत संरचना और संदर्भ प्रदान करता है। डीओजीआर दस्तावेज़ समझ को अधिक सूक्ष्म स्तर तक बढ़ाता है और लचीले इंटरैक्शन प्रतिमानों को सक्षम बनाता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन डेटा इंजन और बेंचमार्क प्रस्तुत करते हैं जो मल्टीमॉडल बड़े पैमाने के भाषा मॉडल की दृश्य दस्तावेज़ समझ क्षमताओं को बेहतर बनाने में योगदान देता है।
हम दस्तावेज़ की सूक्ष्म समझ के लिए एक नया आधारभूत मॉडल प्रस्तुत करते हैं।
हम बेहतर ग्राउंडिंग और संदर्भ क्षमताओं के साथ एक पाठ स्थानीयकरण और पहचान तकनीक प्रस्तुत करते हैं।
यह अधिक लचीला और कुशल उपयोगकर्ता-दस्तावेज़ इंटरैक्शन प्रतिमान प्रस्तुत करता है।
Limitations:
DOGR-इंजन और DOGR मॉडल के सामान्यीकरण प्रदर्शन का आगे मूल्यांकन आवश्यक है।
विभिन्न दस्तावेज़ प्रकारों और जटिलताओं में मापनीयता का और अधिक सत्यापन आवश्यक है।
वर्तमान में बेंचमार्क में शामिल कार्यों के प्रकार सीमित हो सकते हैं। हमें कार्यों की विस्तृत श्रृंखला जोड़कर बेंचमार्क की व्यापकता बढ़ाने की आवश्यकता है।
👍