HumanVBench: Probing Human-Centric Video Understanding in MLLMs with Automatically Synthesized Benchmarks

Created by

Haebom

저자

Ting Zhou, Daoyuan Chen, Qirui Jiao, Bolin Ding, Yaliang Li, Ying Shen

💡 개요

기존 벤치마크가 간과해 온 감정, 행동, 교차 양식 정렬 등 미묘한 인간 중심 비디오 이해 능력을 평가하기 위해, 본 논문은 16가지 세분화된 작업을 포괄하는 HumanVBench를 제안합니다. 최소한의 인간 노력으로 고품질 비디오 주석과 도전적인 객관식 질문을 자동 합성하는 새로운 방법론을 통해, 본 연구는 MLLM의 인간 중심 비디오 이해 능력의 현저한 부족함을 밝혀냈습니다.

🔑 시사점 및 한계

•

HumanVBench는 MLLM의 인간 중심 비디오 이해, 특히 감정 및 교차 양식 정렬 능력을 체계적으로 평가할 수 있는 새로운 벤치마크를 제공합니다.

•

자동화된 합성 파이프라인은 인간의 노력을 최소화하면서도 섬세하고 복잡한 평가 데이터를 생성할 수 있는 확장 가능한 프레임워크를 제시합니다.

•

최첨단 MLLM들도 미묘한 감정 인식과 시각 정보와의 음성 정렬에서 인간 성능에 크게 미치지 못하는 한계를 보입니다.

PDF 보기

Made with Slashpage