Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Grid-LOGAT: Grid Based Local and Global Area Transcription for Video Question Answering

Created by
  • Haebom

저자

Md Intisar Chowdhury, Kittinun Aukkapinyo, Hiroshi Fujimura, Joo Ann Woo, Wasu Wasusatein, Fadoua Ghourabi

개요

본 논문에서는 비디오 질의응답(VideoQA)을 위한 Grid 기반 지역 및 전역 영역 전사(Grid-LoGAT) 시스템을 제안합니다. 이 시스템은 두 단계로 작동합니다. 첫째, 시각 언어 모델(VLM)을 사용하여 비디오 프레임에서 텍스트 전사를 추출하고, 둘째, 이러한 전사를 사용하여 질문을 처리하여 대규모 언어 모델(LLM)을 통해 답변을 생성합니다. 이러한 설계는 VLM을 에지 장치에, LLM을 클라우드에 배포하여 이미지 개인 정보를 보호합니다. 전사 품질을 향상시키기 위해, 각 그리드 셀에서 복잡한 지역 세부 정보를 추출하고 전역 정보와 통합하는 그리드 기반 시각적 프롬프팅을 제안합니다. 오픈소스 VLM(LLaVA-1.6-7B)과 LLM(Llama-3.1-8B)을 사용한 Grid-LoGAT는 NExT-QA 및 STAR-QA 데이터셋에서 유사한 기준 모델을 사용하는 최첨단 방법보다 각각 65.9%와 50.11%의 정확도로 성능이 우수함을 평가 결과가 보여줍니다. 또한, NExT-QA를 사용하여 만든 위치 기반 질문에서 비 그리드 버전보다 24점 앞섭니다.

시사점, 한계점

시사점:
그리드 기반 시각적 프롬프팅을 통해 비디오 질의응답의 정확도 향상.
에지 장치와 클라우드를 활용한 시스템 설계를 통한 이미지 개인 정보 보호.
오픈소스 모델을 사용하여 재현성과 접근성 확보.
위치 기반 질문에 대한 성능 향상.
한계점:
특정 오픈소스 모델에 대한 의존성.
제한된 데이터셋(NExT-QA, STAR-QA)에 대한 평가.
그리드 크기 및 다른 하이퍼파라미터에 대한 최적화 필요성.
다양한 비디오 유형 및 질문 유형에 대한 일반화 성능 검증 필요.
👍