LVBench: An Extreme Long Video Understanding Benchmark
Created by
Haebom
저자
Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Xiaotao Gu, Shiyu Huang, Bin Xu, Yuxiao Dong, Ming Ding, Jie Tang
개요
본 논문은 1분 미만의 짧은 영상 이해에 초점을 맞춘 기존의 다중 모달 대규모 언어 모델 및 평가 데이터셋의 한계를 지적하며, 몇 시간에 달하는 긴 영상을 이해하는 데 필요한 장기적인 의사결정을 위한 구현된 지능, 심층적인 영화 리뷰 및 토론, 실시간 스포츠 해설 등 실제 응용 프로그램의 요구를 충족시키지 못한다는 점을 강조합니다. 이를 해결하기 위해, 논문에서는 장시간 영상 이해를 위한 새로운 벤치마크인 LVBench를 제안합니다. LVBench는 공개적으로 입수 가능한 다양한 영상과 장시간 영상 이해 및 정보 추출을 목표로 하는 다양한 작업으로 구성되어 있으며, 다중 모달 모델의 장기 기억 및 확장된 이해 능력을 평가하도록 설계되었습니다. 실험 결과, 현재의 다중 모달 모델은 이러한 까다로운 장시간 영상 이해 작업에서 여전히 성능이 저조함을 보여줍니다. LVBench는 장시간 영상 이해의 복잡성을 해결할 수 있는 더욱 발전된 모델 개발을 촉진하기 위한 목적으로 제작되었으며, 데이터와 코드는 공개적으로 제공됩니다.
시사점, 한계점
•
시사점: 장시간 영상 이해를 위한 새로운 벤치마크인 LVBench를 제시하여, 기존 모델의 한계를 명확히 하고 향후 연구 방향을 제시합니다. 공개된 데이터셋과 코드를 통해 다중 모달 모델의 발전을 가속화할 수 있습니다. 실제 응용 프로그램에 필요한 장시간 영상 이해 기술 개발을 위한 중요한 기반을 마련합니다.
•
한계점: LVBench가 아직 초기 단계의 벤치마크이므로, 더욱 다양한 유형의 장시간 영상과 작업이 추가될 필요가 있습니다. 현재 모델의 성능 저조 원인에 대한 심층적인 분석이 부족합니다. 다양한 언어 및 문화적 배경을 고려한 데이터셋 확장이 필요합니다.