본 논문은 시각적으로 풍부한 문서(텍스트, 복잡한 레이아웃, 이미지 통합) 이해 능력의 중요성을 강조하며, 기존의 Key Information Extraction (KIE) 방법의 한계(OCR 의존으로 인한 지연, 높은 연산 비용, 오류 발생)를 지적합니다. 이를 극복하기 위해 OCR을 거치지 않고 이미지에서 바로 텍스트를 추출하는 새로운 end-to-end 모델인 STNet을 제시합니다. STNet은 특수 토큰을 이용하여 질문과 관련된 이미지 영역을 관찰하고(see), 이를 바탕으로 정확한 답변과 시각적 근거를 제공(tell)합니다. 모델의 성능 향상을 위해 GPT-4를 활용하여, 텍스트 기반 질문응답(QA) 쌍과 정확한 시각적 근거를 포함하는 TVG(TableQA with Vision Grounding) 데이터셋을 구축했습니다. 실험 결과, CORD, SROIE, DocVQA 등 공개 데이터셋에서 최첨단 성능을 달성했습니다. 코드 또한 공개될 예정입니다.