본 논문은 기존 VideoQA(Video Question Answering) 데이터셋의 시간적, 공간적 세분성 부족 문제를 해결하기 위해, 시간적 위치 파악, 공간적 관계 추론, 개체 중심 질의에 중점을 둔 새로운 데이터셋인 MOMA-QA를 제시합니다. MOMA-QA는 정답이 포함된 시각적 그래프와 시간 간격 주석을 제공하여 세분화된 영상 이해 모델 개발에 적합합니다. 또한, 시각적 그래프 예측기, 효율적인 프레임 검색기, 사전 훈련된 대규모 언어 모델을 통합한 새로운 영상-언어 모델인 SGVLM을 제안합니다. MOMA-QA 및 기타 공개 데이터셋에서의 평가 결과, SGVLM이 기존 모델보다 우수한 성능을 보이며 VideoQA 분야의 새로운 기준을 제시함을 보여줍니다.