본 논문은 기존 비디오 이해 평가 벤치마크의 한계(범위, 과제 다양성, 장면 적응성 부족)를 극복하기 위해 계층적이고 전체적인 비디오 이해(H2VU) 벤치마크를 제안합니다. H2VU는 3초부터 1.5시간까지 다양한 길이의 비디오를 포함하고, 지각 및 추론 과제뿐만 아니라 상식에 반하는 이해 및 궤적 상태 추적과 같은 심층적인 이해 능력을 평가하는 과제들을 포함하며, 1인칭 스트리밍 비디오 데이터셋을 확장하여 현실적인 상황을 반영합니다. 기존 다중 모달 대규모 언어 모델(MLLM)들의 H2VU 평가 결과는 개선의 여지가 큼을 보여주며, H2VU는 비디오 이해 연구 발전에 기여할 것으로 기대됩니다.
시사점, 한계점
•
시사점:
◦
기존 비디오 이해 벤치마크의 한계를 극복하는 새로운 벤치마크(H2VU) 제시
◦
다양한 길이(3초~1.5시간)의 비디오와 다양한 과제(상식에 반하는 이해, 궤적 상태 추적 등) 포함
◦
1인칭 스트리밍 비디오 데이터셋 확장을 통한 현실적인 평가 환경 제공
◦
기존 MLLM의 비디오 이해 능력에 대한 심층적인 분석 및 개선 방향 제시
•
한계점:
◦
본 논문에서는 H2VU 벤치마크의 구체적인 구성(데이터셋 규모, 과제별 상세 내용 등)에 대한 자세한 설명이 부족함.