본 연구에서는 긴 시퀀스 비디오 합성을 위해 확산 모델과 자기회귀 모델의 강점을 결합한 GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)를 연속적인 잠재 공간 내에서 제시합니다. GPDiT는 이산 토큰을 예측하는 대신 확산 손실을 사용하여 미래 잠재 프레임을 자기회귀적으로 예측하여 프레임 간의 자연스러운 움직임 역학과 의미론적 일관성을 모델링합니다. 이 연속적인 자기회귀 프레임워크는 생성 품질을 향상시킬 뿐만 아니라 모델에 표현 능력을 부여합니다. 또한, 경량 인과적 어텐션 변형과 매개변수 없는 회전 기반 시간 조건화 메커니즘을 도입하여 학습 및 추론 효율성을 향상시킵니다. 광범위한 실험을 통해 GPDiT는 비디오 생성 품질, 비디오 표현 능력 및 소수 샷 학습 작업에서 뛰어난 성능을 달성하여 연속 공간에서 비디오 모델링을 위한 효과적인 프레임워크로서의 잠재력을 강조합니다.
시사점, 한계점
•
확산 모델과 자기회귀 모델의 결합을 통해 긴 시퀀스 비디오 합성에 효과적인 프레임워크 제시.
•
연속적인 잠재 공간에서 프레임 간의 자연스러운 움직임과 의미론적 일관성 모델링 가능.
•
GPDiT는 비디오 생성 품질, 비디오 표현 능력, 소수 샷 학습 작업에서 뛰어난 성능을 보임.
•
경량 인과적 어텐션 변형 및 매개변수 없는 회전 기반 시간 조건화 메커니즘 도입으로 학습 및 추론 효율성 향상.