Sign In

StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification

Created by
  • Haebom
Category
Empty

저자

Yichen He, Yuan Lin, Jianchao Wu, Hanchong Zhang, Yuchen Zhang, Ruicheng Le

개요

본 논문은 몇 분에 달하는 긴 비디오에 대한 일관성 있는 설명 생성이 어려운 기존의 대규모 비전-언어 모델(LVLMs)의 한계를 해결하기 위해, StoryTeller라는 시스템을 제안합니다. StoryTeller는 시각, 청각, 텍스트 모달리티를 통합하는 다중 모달 대규모 언어 모델을 사용하여 분 단위의 비디오 클립에서 시청각적 캐릭터 식별을 수행하고, 이 결과를 LVLM에 입력하여 비디오 설명의 일관성을 향상시킵니다. 3분짜리 영화 클립에 대한 밀도 높은 설명이 포함된 MovieStory101 데이터셋과 이 데이터셋에 대한 객관식 질문으로 구성된 StoryQA 데이터셋을 새롭게 제시하며, GPT-4를 이용한 자동 평가와 인간 평가를 통해 StoryTeller의 성능을 검증합니다. 실험 결과, StoryTeller는 StoryQA에서 기존 최고 성능 모델인 Gemini-1.5-pro보다 9.5% 높은 정확도를 달성했으며, 인간 평가에서도 15.56%의 우위를 보였습니다. 또한, StoryTeller의 시청각적 캐릭터 식별 기능을 다른 비디오 설명 모델에 통합하여 성능 향상을 확인했습니다.

시사점, 한계점

시사점:
긴 비디오에 대한 일관성 있는 설명 생성을 위한 새로운 시스템 StoryTeller 제안.
시청각적 캐릭터 식별의 중요성을 강조하고, 이를 통해 비디오 설명 성능 향상을 입증.
MovieStory101 및 StoryQA 데이터셋 제시를 통한 긴 비디오 설명 평가 기준 마련.
GPT-4를 이용한 자동 평가 지표 제시.
StoryTeller가 기존 최고 성능 모델보다 우수한 성능을 보임을 실험적으로 증명.
한계점:
MovieStory101 데이터셋의 규모가 제한적일 수 있음.
GPT-4 기반 자동 평가의 신뢰도에 대한 추가적인 검토 필요.
다양한 장르의 긴 비디오에 대한 일반화 성능 검증 필요.
시청각적 캐릭터 식별의 오류가 전체 설명의 정확도에 미치는 영향에 대한 추가 분석 필요.
👍