본 논문은 기존 Document Visual Question Answering (VQA) 모델 평가 지표의 한계점을 지적하고, 새로운 평가 방법론을 제안합니다. 기존 지표는 모델의 출력이 이미지와 텍스트에 얼마나 잘 근거하는지(groundedness)를 고려하지 않아, 환각(hallucination)이나 심각한 의미 오류가 정확한 출력과 동일하게 취급되는 문제점을 가지고 있습니다. 따라서 제안된 방법론은 출력의 의미적 특징과 입력 문서 내 다중 모드(multimodal) 위치를 고려하여 예측의 근거성을 평가합니다. 사용자의 선호도에 따라 점수를 구성할 수 있도록 매개변수화되어 있으며, 인간 판단을 통해 유효성을 검증하고 기존 리더보드에 미치는 영향을 분석합니다. 결과적으로 제안된 방법은 모델의 강건성을 더 잘 나타내는 점수를 생성하고, 더 잘 보정된 답변에 더 높은 점수를 부여하는 경향을 보입니다.