DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation
Created by
Haebom
Category
Empty
저자
Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
개요
본 논문은 비디오 생성에서 공간-시간적 일관성을 향상시키기 위한 연구를 제시합니다. 기존 연구는 시간적 또는 공간적 일관성에만 초점을 맞추거나, 카메라 움직임에 대한 설명을 추가하는 정도의 단순한 결합에 그쳤습니다. 하지만 카메라 움직임은 새로운 객체를 도입하거나 기존 객체를 제거하여 이전 서사에 영향을 미칠 수 있습니다. 특히 카메라 움직임이 많은 비디오에서는 여러 플롯 간의 상호 작용이 복잡해집니다. 본 논문에서는 플롯 진행과 카메라 기법 간의 상호 작용 및 이전 콘텐츠가 후속 생성에 미치는 장기적인 영향을 고려하는 통합 공간-시간적 일관성을 제시하고 검토합니다. 1000만 개의 동적 카메라 움직임과 객체 동작을 포함하는 DropletVideo-10M 데이터셋을 구축하고, 공간-시간적 일관성을 유지하는 데 탁월한 DropletVideo 모델을 개발하고 훈련했습니다. DropletVideo 데이터셋과 모델은 https://dropletx.github.io 에서 접근 가능합니다.