EaGERS est un pipeline entièrement sans formation et indépendant du modèle qui (1) génère des vérités fondamentales en langage naturel via un modèle de langage de vision, (2) calcule les similarités d'intégration multimodales sur une grille configurable et ancre ces vérités fondamentales dans des sous-régions spatiales par vote majoritaire, et (3) limite la génération de réponses aux seules régions pertinentes sélectionnées à partir d'images masquées. Les résultats expérimentaux obtenus sur le jeu de données DocVQA montrent que la configuration optimale non seulement surpasse les modèles de base en termes de précision d'appariement exact et de métrique de similarité de Levenshtein normalisée à la moyenne, mais améliore également la transparence et la reproductibilité de DocVQA sans ajustement supplémentaire du modèle.