Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench

Created by
  • Haebom
Category
Empty

저자

Lanxiang Hu, Abhilash Shankarampeta, Yixin Huang, Zilin Dai, Haoyang Yu, Yujie Zhao, Haoqiang Kang, Daniel Zhao, Tajana Rosing, Hao Zhang

개요

본 논문은 제로샷 추론 능력을 갖춘 비디오 생성 모델 개발의 일환으로, 비디오 모델의 과학적 추론 능력을 평가하기 위한 새로운 벤치마크인 VideoScience-Bench를 소개합니다. VideoScience-Bench는 물리학 및 화학 분야의 14개 주제와 103개 개념을 아우르는 200개의 프롬프트를 포함하며, 비디오 모델이 복합적인 과학적 시나리오를 이해하고 추론하여 올바른 현상을 생성할 수 있는지 평가합니다. T2V 및 I2V 설정에서 7개의 최첨단 비디오 모델에 대한 평가를 수행하고, VLM-as-a-Judge를 사용하여 인간 평가와의 높은 상관관계를 확인했습니다.

시사점, 한계점

시사점:
비디오 모델의 과학적 추론 능력을 평가하는 최초의 벤치마크 제공.
다양한 과학적 개념을 포괄하는 포괄적인 평가 프레임워크 구축.
인간 평가와의 높은 상관관계를 보이는 자동 평가 방법론 제시.
비디오 모델의 제로샷 추론 능력 향상에 기여.
한계점:
벤치마크가 물리학 및 화학 분야에 국한됨.
평가에 사용된 모델의 범위가 제한적일 수 있음.
VLM-as-a-Judge의 성능에 따라 평가 결과가 영향을 받을 수 있음.
👍