Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation

Created by
  • Haebom

저자

Xinlong Chen, Yuanxing Zhang, Chongling Rao, Yushuo Guan, Jiaheng Liu, Fuzheng Zhang, Chengru Song, Qiang Liu, Di Zhang, Tieniu Tan

개요

본 논문은 제어 가능한 텍스트-비디오(T2V) 모델 학습에 있어 비디오와 자막 간의 정렬이 매우 중요하지만, 기존 연구는 비디오 자막 평가와 T2V 생성 평가를 연결하는 데 부족함을 지적합니다. 이에 본 논문에서는 특정 자막 형식에 의존하지 않는 T2V 생성을 위한 새로운 비디오 자막 평가 체계인 VidCapBench를 제안합니다. VidCapBench는 전문가 모델 라벨링과 사람의 수정을 결합한 데이터 주석 파이프라인을 사용하여 수집된 각 비디오에 비디오 미학, 콘텐츠, 모션, 물리 법칙 등의 주요 정보를 연결합니다. 그리고 이러한 주요 정보 속성을 자동 평가 가능한 하위 집합과 수동 평가 가능한 하위 집합으로 분할하여 민첩한 개발의 신속한 평가 요구 사항과 철저한 검증의 정확성 요구 사항을 모두 충족합니다. 다수의 최첨단 자막 모델을 평가하여 기존 비디오 자막 평가 방법과 비교하여 VidCapBench의 우수한 안정성과 포괄성을 보여줍니다. 기성품 T2V 모델을 사용한 검증을 통해 VidCapBench 점수와 T2V 품질 평가 지표 간에 상당한 양의 상관관계가 있음을 보여주며, VidCapBench가 T2V 모델 학습에 귀중한 지침을 제공할 수 있음을 시사합니다. 해당 프로젝트는 https://github.com/VidCapBench/VidCapBench 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
T2V 모델 학습을 위한 새로운 비디오 자막 평가 체계 VidCapBench 제시
기존 방법보다 우수한 안정성과 포괄성을 가진 평가 체계임을 실험적으로 증명
VidCapBench 점수와 T2V 품질 평가 지표 간의 높은 상관관계 확인
T2V 모델 개발에 유용한 지침 제공
한계점:
논문에서 VidCapBench의 한계점에 대한 구체적인 언급이 부족함. 향후 연구에서 다뤄야 할 부분으로 예상됨 (예: 특정 유형의 비디오나 자막에 대한 편향성, 확장성, 다양한 언어 지원 등)
👍