दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

देखें फिर बताएं: विज़न ग्राउंडिंग के साथ महत्वपूर्ण जानकारी निष्कर्षण को बढ़ाना

Created by
  • Haebom

लेखक

शुहांग लियू, जेनरोंग झांग, पेंगफेई हू, जिफेंग मा, जून डू, किंग वांग, जियानशु झांग, चेन्यु लियू

रूपरेखा

यह पत्र दृष्टिगत रूप से समृद्ध दस्तावेजों (पाठ, जटिल लेआउट और छवि एकीकरण) को समझने के महत्व पर जोर देता है और मौजूदा प्रमुख सूचना निष्कर्षण (KIE) विधियों (OCR पर निर्भरता के कारण विलंब, उच्च कम्प्यूटेशनल लागत और त्रुटियाँ) की सीमाओं को इंगित करता है। इन सीमाओं को दूर करने के लिए, हम STNet प्रस्तुत करते हैं, जो एक नया एंड-टू-एंड मॉडल है जो बिना OCR के छवियों से सीधे पाठ निकालता है। STNet किसी प्रश्न से संबंधित छवि क्षेत्रों का अवलोकन (देखने) के लिए विशेष टोकन का उपयोग करता है और इनके आधार पर सटीक उत्तर और दृश्य ग्राउंडिंग (बताएँ) प्रदान करता है। मॉडल के प्रदर्शन को बेहतर बनाने के लिए, हम TVG (विज़न ग्राउंडिंग के साथ टेबलक्यूए) डेटासेट बनाने के लिए GPT-4 का लाभ उठाते हैं

Takeaways, Limitations

Takeaways:
एक नया KIE दृष्टिकोण प्रस्तुत किया गया है जो OCR निर्भरता से मुक्त है।
छवि-आधारित प्रश्न-उत्तर में दृश्य साक्ष्य प्रदान करके सटीकता में सुधार करना।
GPT-4 का उपयोग करके उच्च-गुणवत्ता वाले डेटासेट का निर्माण और रिलीज़ करना
विभिन्न सार्वजनिक डेटासेट पर SOTA प्रदर्शन प्राप्त करना
कोड प्रकटीकरण के माध्यम से अनुसंधान पुनरुत्पादन और मापनीयता में वृद्धि
Limitations:
टीवीजी डेटासेट के पैमाने और सामान्यीकरण प्रदर्शन के आगे सत्यापन की आवश्यकता है।
जटिल लेआउट या विभिन्न छवि प्रकारों के लिए मॉडल के सामान्यीकरण प्रदर्शन का मूल्यांकन करने की आवश्यकता है।
एसटीनेट की कम्प्यूटेशनल लागत और दक्षता का आगे विश्लेषण आवश्यक है।
👍