यह पत्र दृष्टिगत रूप से समृद्ध दस्तावेजों (पाठ, जटिल लेआउट और छवि एकीकरण) को समझने के महत्व पर जोर देता है और मौजूदा प्रमुख सूचना निष्कर्षण (KIE) विधियों (OCR पर निर्भरता के कारण विलंब, उच्च कम्प्यूटेशनल लागत और त्रुटियाँ) की सीमाओं को इंगित करता है। इन सीमाओं को दूर करने के लिए, हम STNet प्रस्तुत करते हैं, जो एक नया एंड-टू-एंड मॉडल है जो बिना OCR के छवियों से सीधे पाठ निकालता है। STNet किसी प्रश्न से संबंधित छवि क्षेत्रों का अवलोकन (देखने) के लिए विशेष टोकन का उपयोग करता है और इनके आधार पर सटीक उत्तर और दृश्य ग्राउंडिंग (बताएँ) प्रदान करता है। मॉडल के प्रदर्शन को बेहतर बनाने के लिए, हम TVG (विज़न ग्राउंडिंग के साथ टेबलक्यूए) डेटासेट बनाने के लिए GPT-4 का लाभ उठाते हैं