본 논문에서는 기존 VAE 기반 비디오 토크나이저의 결정적 디코더를 3D 인과 확산 모델로 대체한 새로운 조건부 확산 기반 비디오 토크나이저인 CDT를 제안합니다. 엔코더를 통해 얻은 잠재 표현을 조건으로 디코더의 역 확산 생성 과정을 수행하며, 특징 캐싱과 샘플링 가속화를 통해 임의 길이의 고충실도 비디오를 효율적으로 재구성합니다. 단일 단계 샘플링으로 최첨단 비디오 재구성 성능을 달성하며, 소형 버전조차도 최고 수준의 기준 모델들과 동등한 성능을 보입니다. 또한, CDT를 사용하여 훈련된 잠재 비디오 생성 모델 또한 우수한 성능을 보입니다.