Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Video-Bench: Human-Aligned Video Generation Benchmark

Created by
  • Haebom

저자

Hui Han, Siyuan Li, Jiaqi Chen, Yiwen Yuan, Yuling Wu, Chak Tou Leong, Hanwen Du, Junchen Fu, Youhua Li, Jie Zhang, Chi Zhang, Li-jia Li, Yongxin Ni

개요

본 논문은 기존의 비디오 생성 평가 벤치마크의 한계를 극복하기 위해, 대규모 언어 모델(LLM)을 활용한 새로운 벤치마크인 Video-Bench를 제안합니다. Video-Bench는 풍부한 프롬프트 세트와 다차원적인 평가 기준을 통해 비디오 생성 모델의 품질을 종합적으로 평가하며, 특히 사람의 평가와의 일치도를 높이는 데 중점을 둡니다. 기존 벤치마크의 단점인 객관적인 지표 부족과 LLM 기반 벤치마크의 비디오 품질 지표에 대한 이해 부족 문제를 해결하기 위해, few-shot scoring 및 chain-of-query 기법을 활용하여 구조적이고 확장 가능한 평가 방식을 제공합니다. Sora와 같은 최첨단 모델을 이용한 실험 결과, Video-Bench는 모든 측면에서 사람의 선호도와 더 높은 일치율을 보이며, 사람의 평가와 다를 경우에도 더 객관적이고 정확한 통찰력을 제공하는 것으로 나타났습니다.

시사점, 한계점

시사점:
LLM을 활용하여 비디오 생성 모델의 품질을 사람의 평가와 더욱 잘 일치하도록 평가하는 새로운 벤치마크인 Video-Bench를 제시했습니다.
기존 벤치마크의 한계점인 객관적인 지표 부족과 LLM의 비디오 품질 지표에 대한 이해 부족을 효과적으로 해결했습니다.
few-shot scoring과 chain-of-query 기법을 통해 구조적이고 확장 가능한 평가 방식을 제시했습니다.
실험 결과, Video-Bench가 사람의 선호도와 높은 일치율을 보이며, 사람의 판단보다 더 객관적이고 정확한 평가를 제공할 수 있음을 보여주었습니다.
한계점:
현재 제시된 Video-Bench의 성능은 특정 모델과 데이터셋에 대한 실험 결과에 기반하므로, 다양한 모델과 데이터셋에 대한 추가적인 검증이 필요합니다.
LLM의 성능에 의존하는 만큼, LLM 자체의 한계와 편향이 Video-Bench의 평가 결과에 영향을 미칠 수 있습니다.
사람의 주관적인 평가와 완벽하게 일치하는 것은 어려우며, 사람의 평가와의 차이에 대한 추가적인 분석과 해석이 필요합니다.
👍