본 논문에서는 비디오 질의응답(VideoQA)을 위한 Grid 기반 지역 및 전역 영역 전사(Grid-LoGAT) 시스템을 제안합니다. 이 시스템은 두 단계로 작동합니다. 첫째, 시각 언어 모델(VLM)을 사용하여 비디오 프레임에서 텍스트 전사를 추출하고, 둘째, 이러한 전사를 사용하여 질문을 처리하여 대규모 언어 모델(LLM)을 통해 답변을 생성합니다. 이러한 설계는 VLM을 에지 장치에, LLM을 클라우드에 배포하여 이미지 개인 정보를 보호합니다. 전사 품질을 향상시키기 위해, 각 그리드 셀에서 복잡한 지역 세부 정보를 추출하고 전역 정보와 통합하는 그리드 기반 시각적 프롬프팅을 제안합니다. 오픈소스 VLM(LLaVA-1.6-7B)과 LLM(Llama-3.1-8B)을 사용한 Grid-LoGAT는 NExT-QA 및 STAR-QA 데이터셋에서 유사한 기준 모델을 사용하는 최첨단 방법보다 각각 65.9%와 50.11%의 정확도로 성능이 우수함을 평가 결과가 보여줍니다. 또한, NExT-QA를 사용하여 만든 위치 기반 질문에서 비 그리드 버전보다 24점 앞섭니다.