दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

दस्तावेज़ हेस्टैक: एक दीर्घ संदर्भ बहुविध छवि/दस्तावेज़ समझ विज़न एलएलएम बेंचमार्क

Created by
  • Haebom

लेखक

गोएरिक ह्यूब्रेक्ट्स, श्रीकांत रोनांकी, साई मुरलीधर जयंती, जैक फिट्जगेराल्ड, श्रीनिवासन वीरवनल्लूर

रूपरेखा

यह शोधपत्र इस बात पर प्रकाश डालता है कि बहुविध वृहत्-स्तरीय भाषा मॉडल (एलएलएम) में हुई प्रगति के बावजूद, जिसने विभिन्न विधाओं में जटिल डेटा इनपुट का विश्लेषण और समझने की क्षमता में उल्लेखनीय सुधार किया है, उपयुक्त मानकों के अभाव में दीर्घ दस्तावेज़ प्रसंस्करण एक अप्रयुक्त क्षेत्र बना हुआ है। इस समस्या का समाधान करने के लिए, यह शोधपत्र डॉक्यूमेंट हेस्टैक प्रस्तुत करता है, जो एक व्यापक मानक है जिसे दृष्टिगत रूप से जटिल दीर्घ दस्तावेज़ों पर विज़न लैंग्वेज मॉडल (वीएलएम) के प्रदर्शन का मूल्यांकन करने के लिए डिज़ाइन किया गया है। डॉक्यूमेंट हेस्टैक में 5 से 200 पृष्ठों तक के दस्तावेज़ होते हैं और वीएलएम की पुनर्प्राप्ति क्षमताओं को चुनौती देने के लिए दस्तावेज़ के भीतर विभिन्न गहराइयों पर शुद्ध पाठ या बहुविध पाठ-और-चित्र "सुइयों" को रणनीतिक रूप से सम्मिलित किया जाता है। इसमें 400 दस्तावेज़ प्रकार और कुल 8,250 प्रश्न शामिल हैं, जो एक वस्तुनिष्ठ और स्वचालित मूल्यांकन ढाँचे का समर्थन करते हैं। यह शोधपत्र डॉक्यूमेंट हेस्टैक डेटासेट की संरचना और विशेषताओं का विवरण देता है, प्रमुख वीएलएम के परिणाम प्रस्तुत करता है, और इस क्षेत्र में संभावित शोध दिशाओं पर चर्चा करता है।

Takeaways, Limitations

Takeaways:
हम डॉक्यूमेंट हेस्टैक प्रस्तुत करते हैं, जो लंबे, दृष्टिगत रूप से जटिल दस्तावेजों पर वीएलएम प्रदर्शन के मूल्यांकन के लिए एक नया मानक है।
वीएलएम की खोज क्षमताओं का व्यापक मूल्यांकन, जिसमें अलग-अलग लंबाई और जटिलता वाले दस्तावेज़ शामिल हैं।
एक वस्तुनिष्ठ और स्वचालित मूल्यांकन ढांचा प्रदान करके अनुसंधान की पुनरुत्पादकता और तुलनीयता में सुधार करना।
भावी वीएलएम अनुसंधान की दिशा और विकास में योगदान देना।
Limitations:
भविष्य में डॉक्यूमेंट हेस्टैक डेटासेट के और अधिक विस्तार की आवश्यकता है।
विभिन्न प्रकार की दृश्य जानकारी और दस्तावेज़ संरचनाओं के लिए सामान्यीकरण प्रदर्शन मूल्यांकन की आवश्यकता होती है।
वास्तविक दुनिया के अनुप्रयोग परिदृश्यों में इसकी प्रासंगिकता और प्रयोज्यता पर आगे अनुसंधान की आवश्यकता है।
👍