Video-Bench: Human-Aligned Video Generation Benchmark
Created by
Haebom
저자
Hui Han, Siyuan Li, Jiaqi Chen, Yiwen Yuan, Yuling Wu, Chak Tou Leong, Hanwen Du, Junchen Fu, Youhua Li, Jie Zhang, Chi Zhang, Li-jia Li, Yongxin Ni
개요
본 논문은 기존의 비디오 생성 평가 벤치마크의 한계를 극복하기 위해, 대규모 언어 모델(LLM)을 활용한 새로운 벤치마크인 Video-Bench를 제안합니다. Video-Bench는 풍부한 프롬프트 세트와 다차원적인 평가 기준을 통해 비디오 생성 모델의 품질을 종합적으로 평가하며, 특히 사람의 평가와의 일치도를 높이는 데 중점을 둡니다. 기존 벤치마크의 단점인 객관적인 지표 부족과 LLM 기반 벤치마크의 비디오 품질 지표에 대한 이해 부족 문제를 해결하기 위해, few-shot scoring 및 chain-of-query 기법을 활용하여 구조적이고 확장 가능한 평가 방식을 제공합니다. Sora와 같은 최첨단 모델을 이용한 실험 결과, Video-Bench는 모든 측면에서 사람의 선호도와 더 높은 일치율을 보이며, 사람의 평가와 다를 경우에도 더 객관적이고 정확한 통찰력을 제공하는 것으로 나타났습니다.
시사점, 한계점
•
시사점:
◦
LLM을 활용하여 비디오 생성 모델의 품질을 사람의 평가와 더욱 잘 일치하도록 평가하는 새로운 벤치마크인 Video-Bench를 제시했습니다.
◦
기존 벤치마크의 한계점인 객관적인 지표 부족과 LLM의 비디오 품질 지표에 대한 이해 부족을 효과적으로 해결했습니다.
◦
few-shot scoring과 chain-of-query 기법을 통해 구조적이고 확장 가능한 평가 방식을 제시했습니다.
◦
실험 결과, Video-Bench가 사람의 선호도와 높은 일치율을 보이며, 사람의 판단보다 더 객관적이고 정확한 평가를 제공할 수 있음을 보여주었습니다.
•
한계점:
◦
현재 제시된 Video-Bench의 성능은 특정 모델과 데이터셋에 대한 실험 결과에 기반하므로, 다양한 모델과 데이터셋에 대한 추가적인 검증이 필요합니다.
◦
LLM의 성능에 의존하는 만큼, LLM 자체의 한계와 편향이 Video-Bench의 평가 결과에 영향을 미칠 수 있습니다.
◦
사람의 주관적인 평가와 완벽하게 일치하는 것은 어려우며, 사람의 평가와의 차이에 대한 추가적인 분석과 해석이 필요합니다.