VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation
Created by
Haebom
저자
Xinlong Chen, Yuanxing Zhang, Chongling Rao, Yushuo Guan, Jiaheng Liu, Fuzheng Zhang, Chengru Song, Qiang Liu, Di Zhang, Tieniu Tan
개요
본 논문은 제어 가능한 텍스트-비디오(T2V) 모델 학습에 있어 비디오와 자막 간의 정렬이 매우 중요하지만, 기존 연구는 비디오 자막 평가와 T2V 생성 평가를 연결하는 데 부족함을 지적합니다. 이에 본 논문에서는 특정 자막 형식에 의존하지 않는 T2V 생성을 위한 새로운 비디오 자막 평가 체계인 VidCapBench를 제안합니다. VidCapBench는 전문가 모델 라벨링과 사람의 수정을 결합한 데이터 주석 파이프라인을 사용하여 수집된 각 비디오에 비디오 미학, 콘텐츠, 모션, 물리 법칙 등의 주요 정보를 연결합니다. 그리고 이러한 주요 정보 속성을 자동 평가 가능한 하위 집합과 수동 평가 가능한 하위 집합으로 분할하여 민첩한 개발의 신속한 평가 요구 사항과 철저한 검증의 정확성 요구 사항을 모두 충족합니다. 다수의 최첨단 자막 모델을 평가하여 기존 비디오 자막 평가 방법과 비교하여 VidCapBench의 우수한 안정성과 포괄성을 보여줍니다. 기성품 T2V 모델을 사용한 검증을 통해 VidCapBench 점수와 T2V 품질 평가 지표 간에 상당한 양의 상관관계가 있음을 보여주며, VidCapBench가 T2V 모델 학습에 귀중한 지침을 제공할 수 있음을 시사합니다. 해당 프로젝트는 https://github.com/VidCapBench/VidCapBench 에서 확인할 수 있습니다.