Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data

Created by
  • Haebom
Category
Empty

저자

Ting Zhou, Daoyuan Chen, Qirui Jiao, Bolin Ding, Yaliang Li, Ying Shen

개요

본 논문은 다중모드 대규모 언어 모델(MLLM)의 인간 중심적 비디오 이해 능력 평가를 위한 새로운 벤치마크인 HumanVBench를 제시합니다. 기존 벤치마크가 주로 객체 및 행동 인식에 초점을 맞춘 것과 달리, HumanVBench는 비디오 콘텐츠 내 인간의 감정, 행동, 음성-시각적 정렬의 미묘한 차이점을 고려합니다. 내적 감정과 외적 표현이라는 두 가지 주요 차원에 걸쳐 정적 및 동적, 기본 및 복잡한, 단일 모드 및 교차 모드 측면을 포함하는 16가지 과제로 구성됩니다. 자동화된 비디오 주석 및 방해 요소가 포함된 질문 생성 파이프라인을 통해 인간 주석 의존성을 최소화하고, 22개의 최첨단(SOTA) 비디오 MLLM에 대한 포괄적인 평가를 통해 현재 성능의 한계, 특히 교차 모드 및 감정 인식 능력의 부족을 보여줍니다. HumanVBench는 오픈소스로 공개되어 향후 발전과 실제 응용 프로그램을 지원합니다.

시사점, 한계점

시사점:
인간 중심적 비디오 이해에 초점을 맞춘 새로운 벤치마크 HumanVBench 제시
감정, 행동, 음성-시각적 정렬 등 인간의 미묘한 특징을 포괄적으로 평가
자동화된 주석 및 질문 생성 파이프라인을 통해 효율적인 데이터 생성 및 품질 평가
22개 SOTA MLLM 평가를 통해 현재 모델의 한계점을 명확히 제시하며 향후 연구 방향 제시
오픈소스 공개를 통한 연구 및 응용의 활성화
한계점:
HumanVBench 자체의 객관성 및 일반화 가능성에 대한 추가 검증 필요
특정 유형의 비디오 데이터에 편향되어 있을 가능성
자동화된 파이프라인의 정확도 및 신뢰성에 대한 추가 연구 필요
평가된 22개 SOTA MLLM 이외의 다른 모델에 대한 일반화 가능성 검토 필요
👍