यह शोधपत्र दृश्य दस्तावेज़ समझ के क्षेत्र में सूक्ष्म समझ और लचीली उपयोगकर्ता सहभागिता के लिए बहुविधीय वृहद-स्तरीय भाषा मॉडल (एमएलएलएम) की आधारभूत संरचना और संदर्भ क्षमताओं के अपर्याप्त विकास पर प्रकाश डालता है। इस समस्या के समाधान के लिए, हम दस्तावेज़ आधारभूत संरचना और संदर्भ डेटा इंजन (DOGR-इंजन) का प्रस्ताव करते हैं। DOGR-इंजन दो प्रकार के उच्च-गुणवत्ता वाले, सूक्ष्म-स्तरीय दस्तावेज़ डेटा उत्पन्न करता है: (1) पाठ स्थानीयकरण और पहचान में सुधार के लिए बहु-कण विश्लेषण डेटा, और (2) संवाद और अनुमान में एमएलएलएम की आधारभूत संरचना और संदर्भ क्षमताओं को बढ़ाने के लिए निर्देश-ट्यूनिंग डेटा। इस डेटा के आधार पर, हम DOGR-बेंच का निर्माण करते हैं, जो तीन दस्तावेज़ प्रकारों (चार्ट, पोस्टर और PDF दस्तावेज़) में सात आधारभूत संरचना और संदर्भ कार्यों को शामिल करने वाला एक बेंचमार्क है। उत्पन्न डेटा का लाभ उठाते हुए, हम DOGR विकसित करते हैं, जो एक मजबूत आधारभूत मॉडल है जो पाठ स्थानीयकरण और पहचान में उत्कृष्ट है और संवाद और अनुमान के दौरान महत्वपूर्ण पाठ्य जानकारी को सटीक रूप से आधारभूत संरचना और संदर्भ प्रदान करता है। डीओजीआर दस्तावेज़ समझ को अधिक सूक्ष्म स्तर तक बढ़ाता है और लचीले इंटरैक्शन प्रतिमानों को सक्षम बनाता है।