EaGERS는 완전한 무훈련 및 모델 비의존적 파이프라인으로, (1) 비전 언어 모델을 통해 자연어 근거를 생성하고, (2) 구성 가능한 그리드에 대한 다중 모달 임베딩 유사성을 계산하여 다수결 투표를 통해 이러한 근거를 공간적 하위 영역에 근거를 두고, (3) 마스크된 이미지에서 선택된 관련 영역에서만 응답 생성을 제한합니다. DocVQA 데이터셋에 대한 실험 결과, 최적 구성은 정확 일치 정확도 및 평균 정규화 Levenshtein 유사성 지표에서 기본 모델을 능가할 뿐만 아니라 추가 모델 미세 조정 없이 DocVQA의 투명성과 재현성을 향상시키는 것으로 나타났습니다.