OVO-Bench는 온라인 비디오 이해 능력을 평가하기 위한 새로운 벤치마크입니다. 기존 벤치마크들이 시간 정보를 고려하지 않는 반면, OVO-Bench는 질문이 제기된 시간에 따라 동적으로 추론하는 능력인 시간 인식(Temporal Awareness)을 중점적으로 평가합니다. 세 가지 시나리오 (과거 추적, 실시간 이해, 미래 대응)를 통해 12가지 과제를 제시하며, 644개의 고유 비디오와 약 2,800개의 정밀한 시간 정보가 포함된 메타 주석으로 구성됩니다. 자동 생성 파이프라인과 사람의 큐레이션을 결합하여 고품질 데이터셋을 구축했으며, 이를 통해 9개의 비디오 LLM을 평가한 결과, 기존 벤치마크에서 좋은 성능을 보이는 모델들도 온라인 비디오 이해에는 어려움을 겪는다는 것을 발견했습니다. OVO-Bench는 온라인 비디오 추론 분야의 발전을 촉진할 것으로 기대됩니다.