Sign In

DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

Created by
  • Haebom
Category
Empty

저자

Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan

개요

본 논문은 비디오 생성에서 공간-시간적 일관성을 향상시키기 위한 연구를 제시합니다. 기존 연구는 시간적 또는 공간적 일관성에만 초점을 맞추거나, 카메라 움직임에 대한 설명을 추가하는 정도의 단순한 결합에 그쳤습니다. 하지만 카메라 움직임은 새로운 객체를 도입하거나 기존 객체를 제거하여 이전 서사에 영향을 미칠 수 있습니다. 특히 카메라 움직임이 많은 비디오에서는 여러 플롯 간의 상호 작용이 복잡해집니다. 본 논문에서는 플롯 진행과 카메라 기법 간의 상호 작용 및 이전 콘텐츠가 후속 생성에 미치는 장기적인 영향을 고려하는 통합 공간-시간적 일관성을 제시하고 검토합니다. 1000만 개의 동적 카메라 움직임과 객체 동작을 포함하는 DropletVideo-10M 데이터셋을 구축하고, 공간-시간적 일관성을 유지하는 데 탁월한 DropletVideo 모델을 개발하고 훈련했습니다. DropletVideo 데이터셋과 모델은 https://dropletx.github.io 에서 접근 가능합니다.

시사점, 한계점

시사점:
동적 카메라 움직임과 객체 상호작용을 고려한 통합 공간-시간적 일관성 개념을 제시.
1000만 개의 비디오를 포함하는 대규모 DropletVideo-10M 데이터셋 구축.
공간-시간적 일관성을 향상시킨 DropletVideo 모델 개발 및 공개.
한계점:
DropletVideo-10M 데이터셋의 다양성 및 대표성에 대한 추가적인 검증 필요.
모델의 성능을 다양한 비디오 유형 및 복잡도에 대해 평가할 필요.
장기적인 일관성 유지에 대한 추가적인 연구 필요.
👍