본 논문은 비디오 질의응답(VideoQA)을 위한 Grid-based Local and Global Area Transcription (Grid-LoGAT) 시스템을 제안합니다. Grid-LoGAT는 영상 프레임에서 시각 언어 모델(VLM)을 이용해 텍스트 형태의 내용을 추출하는 단계와, 추출된 내용을 사용하여 대규모 언어 모델(LLM)을 통해 질문에 대한 답을 생성하는 단계의 두 단계로 구성됩니다. VLM을 에지 디바이스에, LLM을 클라우드에 배치하여 이미지 프라이버시를 보장합니다. 추출된 내용의 질을 높이기 위해, 각 그리드 셀에서 세밀한 지역적 정보를 추출하고 전역 정보와 통합하는 그리드 기반 시각적 프롬프팅 기법을 제안합니다. 오픈소스 VLM(LLaVA-1.6-7B)과 LLM(Llama-3.1-8B)을 사용한 Grid-LoGAT는 NExT-QA 및 STAR-QA 데이터셋에서 각각 65.9%와 50.11%의 정확도를 달성하며, 유사한 기준 모델을 사용하는 최첨단 방법들을 능가합니다. 또한, NExT-QA를 이용해 생성한 위치 기반 질문에서는 비 그리드 방식보다 24% 향상된 성능을 보입니다. 본 논문은 IEEE ICIP 2025에 게재 승인되었습니다.