기존 비디오 토크나이저는 비디오 압축 및 재구성을 위해 전통적인 VAE(Variational Autoencoder) 아키텍처를 사용하지만, 성능 향상을 위해 복잡한 다단계 훈련 기법에 의존하는 경우가 많습니다. 특히 GAN(Generative Adversarial Networks)을 활용한 적대적 훈련의 미세 조정은 안정적인 수렴을 저해하는 어려움을 야기합니다. 본 논문에서는 GAN 대신 더 안정적인 훈련 과정과 고품질 결과를 제공하는 확산 모델을 기반으로 하는 새로운 비디오 토크나이저인 CDT(Conditioned Diffusion-based video Tokenizer)를 제안합니다. CDT는 인코더를 통해 시공간 정보를 압축된 잠재 변수로 변환하고, 조건부 인과 확산 모델 기반 디코더를 통해 역확산 과정으로 비디오를 재구성합니다. 추론 시에는 특징 캐시 메커니즘과 샘플링 가속 기술을 통해 임의 길이의 비디오를 시간적 연속성을 유지하며 효율적으로 생성합니다. MSE 확산 손실, KL 항, LPIPS 지각 손실만을 사용하여 훈련되었으며, 단일 단계 샘플링으로 최첨단 성능을 달성합니다. 축소된 CDT 버전도 기존 최고 성능 모델과 비슷한 성능을 보입니다. 또한 CDT로 훈련된 잠재 비디오 생성 모델 또한 우수한 성능을 보입니다.
시사점, 한계점
•
시사점:
◦
GAN 기반 적대적 훈련 없이 안정적이고 효율적인 비디오 토크나이저를 제시.
◦
단일 단계 샘플링으로 최첨단 비디오 재구성 성능 달성.
◦
축소된 모델에서도 경쟁력 있는 성능 유지.
◦
우수한 잠재 비디오 생성 모델 성능.
◦
소스 코드 및 사전 훈련된 가중치 공개 예정.
•
한계점:
◦
현재까지는 소스 코드 및 사전 훈련된 가중치가 공개되지 않음.
◦
다양한 비디오 데이터셋에 대한 성능 평가가 추가적으로 필요할 수 있음.
◦
확산 모델의 계산 비용이 VAE보다 높을 수 있음 (하지만 샘플링 가속 기술을 통해 효율성 개선).