본 논문은 비디오 텍스트 기반 시각적 질문 응답(Video TextVQA) 문제에 대한 새로운 모델인 GAT(Gather and Trace)를 제안합니다. 기존의 프레임 단위 접근 방식의 한계를 극복하기 위해, 인스턴스 중심 관점에서 문제를 재해석합니다. GAT는 먼저, 시각적 외관, 레이아웃 특징, 텍스트 내용을 통합하여 각 비디오 텍스트 인스턴스에 대한 정확한 해석을 얻는 컨텍스트 집계 인스턴스 수집 모듈을 사용합니다. 다음으로, 인스턴스 간의 시공간적 관계를 설정하고 최종 답변을 추론하기 위해 인스턴스 중심 궤적 추적 모듈을 통해 비디오 흐름에서 텍스트의 동적 진화를 포착합니다. 여러 공개 Video TextVQA 데이터셋에서의 실험 결과, GAT는 기존 방법들보다 정확도와 추론 속도 모두에서 우수한 성능을 보이며, 특히 기존 최고 성능 모델보다 정확도는 3.86% 향상되고 추론 속도는 10배 빨라짐을 보였습니다. 소스 코드는 GitHub에서 공개됩니다.