Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Created by
  • Haebom
Category
Empty

저자

Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang

개요

OVO-Bench는 온라인 비디오 이해 능력을 평가하기 위한 새로운 벤치마크입니다. 기존 벤치마크들이 시간 정보를 고려하지 않는 반면, OVO-Bench는 질문이 제기된 시간에 따라 동적으로 추론하는 능력인 시간 인식(Temporal Awareness)을 중점적으로 평가합니다. 세 가지 시나리오 (과거 추적, 실시간 이해, 미래 대응)를 통해 12가지 과제를 제시하며, 644개의 고유 비디오와 약 2,800개의 정밀한 시간 정보가 포함된 메타 주석으로 구성됩니다. 자동 생성 파이프라인과 사람의 큐레이션을 결합하여 고품질 데이터셋을 구축했으며, 이를 통해 9개의 비디오 LLM을 평가한 결과, 기존 벤치마크에서 좋은 성능을 보이는 모델들도 온라인 비디오 이해에는 어려움을 겪는다는 것을 발견했습니다. OVO-Bench는 온라인 비디오 추론 분야의 발전을 촉진할 것으로 기대됩니다.

시사점, 한계점

시사점:
시간 인식 능력을 평가하는 새로운 벤치마크 OVO-Bench 제시
기존 비디오 LLM의 시간 인식 능력 부족을 밝힘
온라인 비디오 이해 분야의 연구 방향 제시
고품질 데이터셋과 평가 파이프라인 제공 (GitHub 공개)
한계점:
현재 벤치마크에 포함된 비디오 LLM의 수가 제한적일 수 있음 (9개 모델)
OVO-Bench의 범용성 및 확장성에 대한 추가 연구 필요
인간 수준의 성능과의 정량적 비교에 대한 자세한 분석 필요
👍