HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding
Created by
Haebom
저자
Heqing Zou (Xiao Jie), Tianze Luo (Xiao Jie), Guiyang Xie (Xiao Jie), Victor (Xiao Jie), Zhang, Fengmao Lv, Guangcong Wang, Junyang Chen, Zhuochen Wang, Hansheng Zhang, Huaijian Zhang
개요
본 논문은 1시간 이상의 장시간 비디오 이해를 위한 대규모 벤치마크 데이터셋 HLV-1K를 제시합니다. HLV-1K는 1009개의 1시간짜리 비디오와 14,847개의 고품질 질의응답(QA) 및 다중 선택 질의응답(MCQA) 쌍으로 구성되며, 시간 인식 쿼리와 다양한 주석을 포함하여 프레임 수준, 이벤트 내 수준, 이벤트 간 수준 및 장기 추론 작업을 다룹니다. 기존 최첨단 방법을 사용하여 벤치마크를 평가하고 다양한 수준과 작업에서 심층적인 장시간 비디오 이해 능력을 테스트하기 위한 가치를 보여줍니다. 이는 장시간 라이브 비디오, 회의 녹화 및 영화와 같은 장시간 비디오의 심층적인 이해와 같은 세분화된 수준의 미래 장시간 비디오 이해 작업을 촉진합니다.
시사점, 한계점
•
시사점:
◦
장시간 비디오 이해를 위한 대규모 벤치마크 데이터셋 HLV-1K를 제공하여 연구 발전에 기여.
◦
다양한 수준(프레임, 이벤트 내, 이벤트 간, 장기 추론)과 작업(QA, MCQA)을 포함하여 포괄적인 평가 가능.
◦
장시간 비디오 이해 모델의 성능 평가 및 향상에 기여.
◦
장시간 비디오 이해 분야의 미래 연구 방향 제시 (라이브 비디오, 회의 녹화, 영화 등).
•
한계점:
◦
현재로서는 HLV-1K 데이터셋의 규모가 다른 대규모 벤치마크에 비해 상대적으로 작을 수 있음.
◦
데이터셋의 다양성(비디오 유형, 콘텐츠 등)에 대한 추가적인 검토 필요.
◦
특정 영역에 편향된 데이터셋 구성 가능성 고려.
◦
HLV-1K를 기반으로 한 모델 성능 향상이 실제 응용 분야에서 동일한 성능으로 이어질지는 추가 연구 필요.