Sign In

Rethinking Video Tokenization: A Conditioned Diffusion-based Approach

Created by
  • Haebom
Category
Empty

저자

Nianzu Yang, Pandeng Li, Liming Zhao, Yang Li, Chen-Wei Xie, Yehui Tang, Xudong Lu, Zhihang Liu, Yun Zheng, Yu Liu, Junchi Yan

개요

본 논문에서는 기존 VAE 기반 비디오 토크나이저의 결정적 디코더를 3D 인과 확산 모델로 대체한 새로운 조건부 확산 기반 비디오 토크나이저인 CDT를 제안합니다. 엔코더를 통해 얻은 잠재 표현을 조건으로 디코더의 역 확산 생성 과정을 수행하며, 특징 캐싱과 샘플링 가속화를 통해 임의 길이의 고충실도 비디오를 효율적으로 재구성합니다. 단일 단계 샘플링으로 최첨단 비디오 재구성 성능을 달성하며, 소형 버전조차도 최고 수준의 기준 모델들과 동등한 성능을 보입니다. 또한, CDT를 사용하여 훈련된 잠재 비디오 생성 모델 또한 우수한 성능을 보입니다.

시사점, 한계점

시사점:
3D 인과 확산 모델을 활용한 새로운 비디오 토크나이저 아키텍처 제시.
단일 단계 샘플링으로 고충실도 비디오 재구성 달성.
소형 모델에서도 경쟁력 있는 성능 유지.
향상된 잠재 비디오 생성 모델 성능.
한계점:
제시된 방법의 계산 비용 및 메모리 사용량에 대한 자세한 분석 부족.
다양한 비디오 데이터셋에 대한 일반화 성능 평가 부족.
장기 비디오에 대한 성능 분석 부족.
👍