본 논문은 다중모드 대규모 언어 모델(MLLM)의 인간 중심적 비디오 이해 능력 평가를 위한 새로운 벤치마크인 HumanVBench를 제시합니다. 기존 벤치마크가 주로 객체 및 행동 인식에 초점을 맞춘 것과 달리, HumanVBench는 비디오 콘텐츠 내 인간의 감정, 행동, 음성-시각적 정렬의 미묘한 차이점을 고려합니다. 내적 감정과 외적 표현이라는 두 가지 주요 차원에 걸쳐 정적 및 동적, 기본 및 복잡한, 단일 모드 및 교차 모드 측면을 포함하는 16가지 과제로 구성됩니다. 자동화된 비디오 주석 및 방해 요소가 포함된 질문 생성 파이프라인을 통해 인간 주석 의존성을 최소화하고, 22개의 최첨단(SOTA) 비디오 MLLM에 대한 포괄적인 평가를 통해 현재 성능의 한계, 특히 교차 모드 및 감정 인식 능력의 부족을 보여줍니다. HumanVBench는 오픈소스로 공개되어 향후 발전과 실제 응용 프로그램을 지원합니다.