[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

दस्तावेज़ दृश्य प्रश्न उत्तर के लिए दृष्टि भाषा मॉडल में स्थानिक आधारित स्पष्टीकरण

Created by
  • Haebom

लेखक

मैक्सिमिलियानो होर्मज़ अबल लागोस, एच अभिनेता सेरेज़ो-कोस्टास, डिमोस्थेनिस करात्ज़स

रूपरेखा

EaGERS एक पूर्णतः प्रशिक्षण-मुक्त और मॉडल-अज्ञेय पाइपलाइन है जो (1) एक विज़न भाषा मॉडल के माध्यम से प्राकृतिक भाषा के आधारभूत सत्य उत्पन्न करती है, (2) एक विन्यास योग्य ग्रिड पर बहु-मोडल एम्बेडिंग समानताओं की गणना करती है और बहुमत मतदान के माध्यम से स्थानिक उप-क्षेत्रों में इन आधारभूत सत्यों को आधार बनाती है, और (3) प्रतिक्रिया निर्माण को केवल मास्क्ड छवियों से चुने गए प्रासंगिक क्षेत्रों तक सीमित रखती है। DocVQA डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि इष्टतम विन्यास न केवल सटीक मिलान सटीकता और माध्य-सामान्यीकृत लेवेंशटाइन समानता मीट्रिक पर आधारभूत मॉडलों से बेहतर प्रदर्शन करता है, बल्कि अतिरिक्त मॉडल फ़ाइन-ट्यूनिंग के बिना DocVQA की पारदर्शिता और पुनरुत्पादन क्षमता में भी सुधार करता है।

Takeaways, Limitations

Takeaways:
मॉडल में सुधार किए बिना DocVQA प्रदर्शन में सुधार करना और पारदर्शिता एवं पुनरुत्पादन क्षमता में वृद्धि करना
एक मॉडल-स्वतंत्र पाइपलाइन प्रस्तुत करना जिसके लिए किसी प्रशिक्षण की आवश्यकता नहीं है
दृष्टि-भाषा मॉडल का उपयोग करके प्राकृतिक भाषा साक्ष्य निर्माण और स्थानिक साक्ष्य प्रस्तुति
Limitations:
इस शोधपत्र में विशिष्ट __T7994_____ का स्पष्ट उल्लेख नहीं किया गया है। हालाँकि, चूँकि केवल एक विशिष्ट डेटासेट (DocVQA) के प्रायोगिक परिणाम प्रस्तुत किए गए हैं, इसलिए अन्य डेटासेट पर इसके सामान्यीकरण के लिए आगे के अध्ययन की आवश्यकता हो सकती है।
बहुमत मतदान की सीमाओं के कारण, गलत आधार चयन की संभावना रहती है।
हाइपरपैरामीटर अनुकूलन, जैसे विन्यास योग्य ग्रिड आकार और रिज़ॉल्यूशन पर चर्चा का अभाव।
👍