EaGERS एक पूर्णतः प्रशिक्षण-मुक्त और मॉडल-अज्ञेय पाइपलाइन है जो (1) एक विज़न भाषा मॉडल के माध्यम से प्राकृतिक भाषा के आधारभूत सत्य उत्पन्न करती है, (2) एक विन्यास योग्य ग्रिड पर बहु-मोडल एम्बेडिंग समानताओं की गणना करती है और बहुमत मतदान के माध्यम से स्थानिक उप-क्षेत्रों में इन आधारभूत सत्यों को आधार बनाती है, और (3) प्रतिक्रिया निर्माण को केवल मास्क्ड छवियों से चुने गए प्रासंगिक क्षेत्रों तक सीमित रखती है। DocVQA डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि इष्टतम विन्यास न केवल सटीक मिलान सटीकता और माध्य-सामान्यीकृत लेवेंशटाइन समानता मीट्रिक पर आधारभूत मॉडलों से बेहतर प्रदर्शन करता है, बल्कि अतिरिक्त मॉडल फ़ाइन-ट्यूनिंग के बिना DocVQA की पारदर्शिता और पुनरुत्पादन क्षमता में भी सुधार करता है।