Sign In

LoCoT2V-Bench: A Benchmark for Long-Form and Complex Text-to-Video Generation

Created by
  • Haebom
Category
Empty

저자

Xiangqing Zheng, Chengyue Wu, Kehai Chen, Min Zhang

LoCoT2V-Bench: Long-Form Text-to-Video Generation의 평가를 위한 벤치마크

개요

본 논문은 복잡한 프롬프트 하에서 장편 비디오 생성(LVG)을 평가하기 위해 설계된 벤치마크인 LoCoT2V-Bench를 제안합니다. LoCoT2V-Bench는 장면 전환 및 이벤트 역학과 같은 요소를 통합한 현실적이고 복잡한 프롬프트를 사용하며, 이벤트 수준 정렬, 세분화된 시간적 일관성, 내용 명확성, 서사 흐름, 감정 반응, 캐릭터 개발과 같은 추상적인 속성에 초점을 맞춘 Human Expectation Realization Degree (HERD)를 포함한 다차원 평가 프레임워크를 구축합니다. 9개의 대표적인 LVG 모델을 평가한 결과, 현재 방법론들이 기본적인 시각적 및 시간적 측면에서는 잘 수행되지만, 이벤트 간 일관성, 세분화된 정렬, 높은 수준의 주제 일관성 등에는 어려움을 겪는다는 것을 발견했습니다.

시사점, 한계점

시사점:
장편 복잡한 텍스트-to-비디오 생성을 평가하기 위한 포괄적이고 신뢰할 수 있는 플랫폼 제공.
향후 방법론 개선을 위한 중요한 방향 제시.
새로운 지표(HERD)를 통해 보다 추상적인 속성 평가 가능.
한계점:
논문에 구체적인 한계점에 대한 언급 없음.
👍