본 논문은 고품질 비디오 생성 모델의 발전으로 인해 효과적인 평가의 어려움이 증가함에 따라, 기존 자동 평가 지표의 한계를 극복하기 위해 새로운 평가 모델을 제시합니다. 기존 지표들이 고차원적인 의미 이해와 추론 능력이 부족하다는 점을 지적하며, 3.3k개의 비디오와 16k개의 인간 주석을 기반으로 다차원적인 비디오 평가 지침 조정 데이터셋인 GRADEO-Instruct를 제작했습니다. 이를 바탕으로 다단계 추론을 통해 설명 가능한 점수와 평가를 제공하는 비디오 평가 모델 GRADEO를 제시하고, 기존 방법보다 인간 평가와 더 잘 일치함을 실험을 통해 보여줍니다. 또한, 현재 비디오 생성 모델들이 인간의 추론 및 복잡한 현실 시나리오와 일치하는 콘텐츠 생성에 어려움을 겪는다는 점을 벤치마킹을 통해 밝힙니다. 모델, 데이터셋, 코드는 곧 공개될 예정입니다.