문서 시각 질의 응답 (DocVQA)는 텍스트 의미론, 공간 레이아웃, 시각적 특징을 통합적으로 이해해야 한다. 현재 방법론들은 명시적인 공간 관계 모델링, 고해상도 문서 처리의 비효율성, 다단계 추론, 제한된 해석 가능성 등의 문제점을 겪고 있다. MGA-VQA는 토큰 수준 인코딩, 공간 그래프 추론, 메모리 증강 추론, 질의 기반 압축을 통합하는 다중 모달 프레임워크를 제안한다. MGA-VQA는 기존의 블랙박스 모델과 달리 해석 가능한 그래프 기반 의사 결정 경로와 구조화된 메모리 접근을 도입하여 추론 투명성을 향상시킨다. FUNSD, CORD, SROIE, DocVQA, STE-VQA, RICO의 여섯 가지 벤치마크 평가에서 정확도와 효율성이 뛰어나며, 답변 예측과 공간적 위치 파악 모두에서 일관된 개선을 보여준다.