JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
Created by
Haebom
저자
Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua
개요
JavisDiT은 동기화된 오디오-비디오 생성(JAVG)을 위한 새로운 조인트 오디오-비디오 확산 트랜스포머입니다. Diffusion Transformer(DiT) 아키텍처를 기반으로 하며, 열린 끝 사용자 프롬프트로부터 고품질 오디오 및 비디오 콘텐츠를 동시에 생성할 수 있습니다. 최적의 동기화를 보장하기 위해 계층적 공간-시간 동기화 사전(HiST-Sypo) 추정기를 통해 미세한 공간-시간 정렬 메커니즘을 도입했습니다. 이 모듈은 전역 및 미세한 공간-시간 사전을 추출하여 시각적 및 청각적 구성 요소 간의 동기화를 안내합니다. 또한 다양한 장면과 복잡한 실제 시나리오를 포괄하는 10,140개의 고품질 텍스트 캡션이 포함된 사운드 비디오로 구성된 새로운 벤치마크인 JavisBench를 제안합니다. 더 나아가 실제 복잡한 콘텐츠에서 생성된 오디오-비디오 쌍 간의 동기화를 평가하기 위한 강력한 지표를 특별히 고안했습니다. 실험 결과는 JavisDiT가 고품질 생성과 정밀한 동기화를 모두 보장함으로써 기존 방법보다 훨씬 뛰어나며 JAVG 작업에 대한 새로운 표준을 설정함을 보여줍니다. 코드, 모델 및 데이터셋은 https://javisdit.github.io/ 에서 공개적으로 제공될 것입니다.