기존 비디오 토크나이저는 비디오 압축 및 재구성을 위해 전통적인 VAE(Variational Autoencoder) 아키텍처를 사용하지만, 성능 향상을 위해 복잡한 다단계 훈련 기법에 의존하는 경우가 많습니다. 본 논문에서는 GAN 기반 디코더를 조건부 인과 확산 모델로 대체한 새로운 조건부 확산 기반 비디오 토크나이저(CDT)를 제안합니다. 인코더는 시공간 정보를 압축된 잠재 변수로 변환하고, 디코더는 이 잠재 변수를 조건으로 역 확산 과정을 통해 비디오를 재구성합니다. 추론 시에는 특징 캐시 메커니즘과 샘플링 가속화 기법을 사용하여 임의 길이의 비디오를 생성하고 시간적 연속성을 유지하며 효율성을 높입니다. MSE 확산 손실, KL 항, LPIPS 지각 손실만을 사용하여 훈련되었으며, 단일 단계 샘플링으로 최첨단 성능을 달성합니다. 축소된 버전(3배 빠른 추론 속도)도 최고 수준의 기준 모델과 비슷한 성능을 보이며, CDT로 훈련된 잠재 비디오 생성 모델 또한 우수한 성능을 보입니다.
시사점, 한계점
•
시사점:
◦
GAN 기반 VAE의 복잡한 다단계 훈련 과정을 단순화하여 안정적인 훈련을 가능하게 함.
◦
단일 단계 샘플링으로 최첨단 비디오 재구성 성능 달성.
◦
효율적인 추론을 위한 특징 캐시 메커니즘과 샘플링 가속화 기법 제시.
◦
우수한 성능의 잠재 비디오 생성 모델 제공.
◦
공개된 소스 코드와 사전 훈련된 가중치를 통해 재현성 확보.
•
한계점:
◦
제안된 모델의 성능 비교에 사용된 비디오 데이터셋의 종류와 규모에 대한 자세한 설명 부족.