Sign In

A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction

Created by
  • Haebom
Category
Empty

저자

Yongfan Chen, Xiuwen Zhu, Tianyu Li

개요

본 논문은 물리 법칙을 위반하는 비디오 생성 문제를 해결하기 위해 물리적 일관성 평가 벤치마크인 PhyCoBench를 제안합니다. 7가지 물리적 원리를 포함하는 120개의 프롬프트로 구성된 PhyCoBench는 4개의 최첨단 텍스트-비디오(T2V) 모델을 평가하는 데 사용되었으며, 수동 평가와 더불어 자동 평가 모델인 PhyCoPredictor를 제시합니다. PhyCoPredictor는 광학 흐름과 비디오 프레임을 계단식으로 생성하는 확산 모델이며, 수동 평가와의 일관성 평가를 통해 인간의 평가와 가장 잘 일치하는 것으로 나타났습니다. PhyCoBench는 프롬프트, PhyCoPredictor, 생성된 비디오 데이터셋을 포함하여 GitHub에 공개되었습니다.

시사점, 한계점

시사점:
물리적 일관성에 초점을 맞춘 새로운 벤치마크 PhyCoBench를 제시하여 텍스트-비디오 생성 모델의 물리적 정확성 평가를 가능하게 함.
인간의 평가와 높은 일치율을 보이는 자동 평가 모델 PhyCoPredictor를 개발하여 효율적인 평가를 제공.
PhyCoBench와 PhyCoPredictor를 오픈소스로 공개하여 향후 모델 개발에 기여.
한계점:
PhyCoPredictor의 정확도는 여전히 인간의 평가에 완전히 일치하지 않을 수 있음.
벤치마크에 포함된 물리적 원리의 종류와 수가 제한적일 수 있음. 향후 더 다양한 물리적 현상을 포함하도록 확장될 필요가 있음.
현재 벤치마크에 사용된 모델의 종류가 제한적이므로, 다양한 모델에 대한 평가가 추가적으로 필요함.
👍