Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding

Created by
  • Haebom

저자

Jianxiang He, Meisheng Hong, Jungang Li, Yijie Xu, Ziyang Chen, Weiyu Guo, Hui Xiong

개요

본 논문은 장시간 비디오 이해를 위한 효율적인 키프레임 검색 방법인 Visual-Subtitle Integration(VSI)을 제안합니다. 기존 키프레임 검색 방법의 한계인 텍스트 질의와 시각적 콘텐츠 간의 약한 다중 모드 정렬 및 복잡한 시간적 의미 정보 포착 실패 문제를 해결하기 위해, VSI는 자막, 타임스탬프, 장면 경계를 통합된 다중 모드 검색 프로세스에 통합합니다. 비디오 검색 스트림과 자막 일치 스트림을 통해 비디오 프레임의 시각 정보와 보완적인 텍스트 정보를 모두 활용하며, 두 스트림의 상호 작용을 통해 키프레임 검색 정확도를 향상시킵니다. LongVideoBench 데이터셋에서 키프레임 위치 정확도 및 장시간 비디오 질의응답(Video-QA) 과제에서 경쟁 기법들을 상당한 차이로 능가하는 성능을 달성하여 SOTA를 달성했습니다.

시사점, 한계점

시사점:
자막, 타임스탬프, 장면 경계 정보를 활용한 다중 모드 키프레임 검색의 효과성을 입증.
장시간 비디오 이해를 위한 효율적이고 정확한 키프레임 검색 방법 제시.
LongVideoBench 데이터셋에서 SOTA 성능 달성.
다중 모드 검색 전략의 강건성 및 일반화 가능성 확인.
한계점:
특정 데이터셋(LongVideoBench)에 대한 성능 평가로 일반화 가능성에 대한 추가 연구 필요.
VSI의 계산 복잡도 및 효율성에 대한 추가 분석 필요.
다양한 유형의 장시간 비디오에 대한 성능 평가 필요.
자막이 없는 비디오에 대한 적용 가능성 제한.
👍