Sign In

GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning

Created by
  • Haebom
Category
Empty

저자

Zhun Mou, Bin Xia, Zhengchao Huang, Wenming Yang, Jiaya Jia

개요

본 논문은 고품질 비디오 생성 모델의 발전으로 인해 효과적인 평가의 어려움이 증가함에 따라, 기존 자동 평가 지표의 한계를 극복하기 위해 새로운 평가 모델을 제시합니다. 기존 지표들이 고차원적인 의미 이해와 추론 능력이 부족하다는 점을 지적하며, 3.3k개의 비디오와 16k개의 인간 주석을 기반으로 다차원적인 비디오 평가 지침 조정 데이터셋인 GRADEO-Instruct를 제작했습니다. 이를 바탕으로 다단계 추론을 통해 설명 가능한 점수와 평가를 제공하는 비디오 평가 모델 GRADEO를 제시하고, 기존 방법보다 인간 평가와 더 잘 일치함을 실험을 통해 보여줍니다. 또한, 현재 비디오 생성 모델들이 인간의 추론 및 복잡한 현실 시나리오와 일치하는 콘텐츠 생성에 어려움을 겪는다는 점을 벤치마킹을 통해 밝힙니다. 모델, 데이터셋, 코드는 곧 공개될 예정입니다.

시사점, 한계점

시사점:
인간의 추론 능력을 반영한 새로운 비디오 생성 모델 평가 방법 제시
GRADEO-Instruct 데이터셋을 통해 더욱 정교한 비디오 평가 가능
기존 비디오 생성 모델의 한계점을 명확히 제시하고 개선 방향 제시
설명 가능한 비디오 평가 결과 제공
한계점:
GRADEO-Instruct 데이터셋의 규모가 아직 제한적일 수 있음 (3.3k videos)
모델, 데이터셋, 코드의 공개 시점이 미정임
다양한 유형의 비디오 생성 모델에 대한 일반화 성능 검증 필요
인간 평가와의 완벽한 일치는 아직 달성하지 못했을 가능성 존재
👍