본 논문은 몇 분에 달하는 긴 비디오에 대한 일관성 있는 설명 생성이 어려운 기존의 대규모 비전-언어 모델(LVLMs)의 한계를 해결하기 위해, StoryTeller라는 시스템을 제안합니다. StoryTeller는 시각, 청각, 텍스트 모달리티를 통합하는 다중 모달 대규모 언어 모델을 사용하여 분 단위의 비디오 클립에서 시청각적 캐릭터 식별을 수행하고, 이 결과를 LVLM에 입력하여 비디오 설명의 일관성을 향상시킵니다. 3분짜리 영화 클립에 대한 밀도 높은 설명이 포함된 MovieStory101 데이터셋과 이 데이터셋에 대한 객관식 질문으로 구성된 StoryQA 데이터셋을 새롭게 제시하며, GPT-4를 이용한 자동 평가와 인간 평가를 통해 StoryTeller의 성능을 검증합니다. 실험 결과, StoryTeller는 StoryQA에서 기존 최고 성능 모델인 Gemini-1.5-pro보다 9.5% 높은 정확도를 달성했으며, 인간 평가에서도 15.56%의 우위를 보였습니다. 또한, StoryTeller의 시청각적 캐릭터 식별 기능을 다른 비디오 설명 모델에 통합하여 성능 향상을 확인했습니다.