Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Advancing Egocentric Video Question Answering with Multimodal Large Language Models

Created by
  • Haebom

저자

Alkesh Patel, Vibhav Chitalia, Yinfei Yang

개요

본 논문은 QaEgo4D 데이터셋을 개선한 QaEgo4Dv2를 사용하여 4가지 다중모달 대규모 언어 모델(GPT-4o, Gemini-1.5-Pro, Video-LLaVa-7B, Qwen2-VL-7B-Instruct)의 자기중심 영상 질의응답(Egocentric Video Question Answering, QA) 성능을 평가했습니다. 영상의 긴 시간적 추론, 1인칭 시점, 잦은 카메라 움직임 등의 어려움을 고려하여 제로샷과 파인튜닝 방식으로 OpenQA와 CloseQA 설정에서 모델들을 평가했습니다. 그 결과, 파인튜닝된 Video-LLaVa-7B와 Qwen2-VL-7B-Instruct가 기존 최고 성능을 OpenQA에서 최대 +2.6% ROUGE/METEOR, CloseQA에서 최대 +13% 정확도 향상시키며 새로운 최고 성능을 달성했습니다. 또한, 공간 추론과 세밀한 객체 인식에서 모델의 어려움을 보여주는 오류 분석 결과를 제시했습니다.

시사점, 한계점

시사점:
파인튜닝을 통해 Video-LLaVa-7B와 Qwen2-VL-7B-Instruct가 자기중심 영상 QA에서 최첨단 성능을 달성했습니다.
QaEgo4Dv2 데이터셋을 통해 기존 QaEgo4D의 어노테이션 노이즈 문제를 완화하고 더욱 신뢰할 수 있는 성능 비교가 가능해졌습니다.
모델의 오류 분석 결과는 향후 자기중심 영상 QA 모델 개선을 위한 중요한 방향을 제시합니다.
한계점:
모델의 공간 추론 및 세밀한 객체 인식 능력이 여전히 부족합니다.
평가에 사용된 모델의 종류가 제한적입니다.
더욱 다양하고 복잡한 자기중심 영상 시나리오에 대한 추가적인 연구가 필요합니다.
👍