본 논문은 시각적 문서 이해 및 시각 언어 추론을 위한 핵심 테스트베드인 DocVQA(Document Visual Question Answering)를 다룹니다. 기존 DocVQA 데이터셋의 한계점인 세밀한 공간적 근거 부족 문제를 해결하기 위해, 논문은 바운딩 박스 기반의 대규모 데이터셋인 BBox DocVQA를 제안합니다. 이 데이터셋은 시각적 문서 내에서 공간적 추론과 증거 위치 파악을 향상시키도록 설계되었습니다. 또한, 영역 분할을 위한 세그먼트 모델, 의미 판단을 위한 VLM, 질문-답변 생성을 위한 VLM을 통합한 자동 구축 파이프라인(Segment Judge and Generate)을 제시하고, 인간 검증을 통해 품질을 보장합니다. BBox DocVQA는 3.6K개의 다양한 문서와 32K개의 QA 쌍을 포함하며, 단일 및 다중 영역, 단일 및 다중 페이지 시나리오를 포괄합니다. 각 QA 인스턴스는 명시적인 바운딩 박스에 기반하여 공간적 의미 정렬의 세밀한 평가를 가능하게 합니다. 최첨단 VLM (GPT 5, Qwen2.5 VL, InternVL 등)에 대한 벤치마킹을 통해 공간적 근거 및 추론 정확도에서 지속적인 문제점을 확인하고, BBox DocVQA를 사용한 파인 튜닝이 바운딩 박스 위치 파악과 답변 생성 능력을 크게 향상시키는 것을 보여줍니다.