Sign In

Towards Fine-Grained Video Question Answering

Created by
  • Haebom
Category
Empty

저자

Wei Dai, Alan Luo, Zane Durante, Debadutta Dash, Arnold Milstein, Kevin Schulman, Ehsan Adeli, Li Fei-Fei

개요

본 논문은 기존 VideoQA(Video Question Answering) 데이터셋의 시간적, 공간적 세분성 부족 문제를 해결하기 위해, 시간적 위치 파악, 공간적 관계 추론, 개체 중심 질의에 중점을 둔 새로운 데이터셋인 MOMA-QA를 제시합니다. MOMA-QA는 정답이 포함된 시각적 그래프와 시간 간격 주석을 제공하여 세분화된 영상 이해 모델 개발에 적합합니다. 또한, 시각적 그래프 예측기, 효율적인 프레임 검색기, 사전 훈련된 대규모 언어 모델을 통합한 새로운 영상-언어 모델인 SGVLM을 제안합니다. MOMA-QA 및 기타 공개 데이터셋에서의 평가 결과, SGVLM이 기존 모델보다 우수한 성능을 보이며 VideoQA 분야의 새로운 기준을 제시함을 보여줍니다.

시사점, 한계점

시사점:
시간적, 공간적 세분성이 향상된 새로운 VideoQA 데이터셋 MOMA-QA 제시
세분화된 영상 이해를 위한 새로운 영상-언어 모델 SGVLM 제안
SGVLM의 우수한 성능을 통해 VideoQA 분야의 새로운 성능 기준 제시
시각적 그래프와 시간적 간격 주석을 활용한 정확한 질의응답 가능성 제시
한계점:
MOMA-QA 데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요
SGVLM 모델의 일반화 성능 및 다른 유형의 영상에 대한 적용 가능성에 대한 추가 연구 필요
모델의 복잡성 및 계산 비용에 대한 고려 필요
👍