Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Grid-LOGAT: Grid Based Local and Global Area Transcription for Video Question Answering

Created by
  • Haebom

저자

Md Intisar Chowdhury, Kittinun Aukkapinyo, Hiroshi Fujimura, Joo Ann Woo, Wasu Wasusatein, Fadoua Ghourabi

개요

본 논문은 비디오 질의응답(VideoQA)을 위한 Grid-based Local and Global Area Transcription (Grid-LoGAT) 시스템을 제안합니다. Grid-LoGAT는 영상 프레임에서 시각 언어 모델(VLM)을 이용해 텍스트 형태의 내용을 추출하는 단계와, 추출된 내용을 사용하여 대규모 언어 모델(LLM)을 통해 질문에 대한 답을 생성하는 단계의 두 단계로 구성됩니다. VLM을 에지 디바이스에, LLM을 클라우드에 배치하여 이미지 프라이버시를 보장합니다. 추출된 내용의 질을 높이기 위해, 각 그리드 셀에서 세밀한 지역적 정보를 추출하고 전역 정보와 통합하는 그리드 기반 시각적 프롬프팅 기법을 제안합니다. 오픈소스 VLM(LLaVA-1.6-7B)과 LLM(Llama-3.1-8B)을 사용한 Grid-LoGAT는 NExT-QA 및 STAR-QA 데이터셋에서 각각 65.9%와 50.11%의 정확도를 달성하며, 유사한 기준 모델을 사용하는 최첨단 방법들을 능가합니다. 또한, NExT-QA를 이용해 생성한 위치 기반 질문에서는 비 그리드 방식보다 24% 향상된 성능을 보입니다. 본 논문은 IEEE ICIP 2025에 게재 승인되었습니다.

시사점, 한계점

시사점:
에지 디바이스와 클라우드를 활용한 시스템 설계를 통해 이미지 프라이버시를 효과적으로 보장합니다.
그리드 기반 시각적 프롬프팅 기법을 통해 비디오 내용 전사의 정확도를 향상시켰습니다.
오픈소스 모델을 사용하여 우수한 성능을 달성함으로써, 재현성과 접근성을 높였습니다.
기존 VideoQA 방법들보다 우수한 성능을 NExT-QA와 STAR-QA 데이터셋에서 검증했습니다. 특히 위치 기반 질문에서 성능 향상이 두드러집니다.
한계점:
사용된 오픈소스 모델의 성능에 의존적일 수 있습니다. 더욱 강력한 모델을 사용하면 성능이 더욱 향상될 수 있지만, 계산 비용이 증가할 수 있습니다.
그리드 크기 및 그리드 기반 시각적 프롬프팅의 최적화에 대한 추가 연구가 필요할 수 있습니다.
다양한 종류의 비디오 데이터에 대한 일반화 성능에 대한 추가적인 검증이 필요합니다.
특정 데이터셋에 대한 성능 개선이 다른 데이터셋으로 일반화될 수 있는지에 대한 추가 연구가 필요합니다.
👍