GPDiT는 확산 모델과 자기회귀 모델의 장점을 결합하여 연속적인 잠재 공간 내에서 장기간 비디오 합성을 수행하는 생성 사전 훈련 자기회귀 확산 트랜스포머입니다. 기존의 이산 토큰 예측 대신, GPDiT는 확산 손실을 사용하여 미래의 잠재 프레임을 자기회귀적으로 예측하여 자연스러운 모션 역학과 프레임 간 의미적 일관성을 모델링합니다. 이 연속적인 자기회귀 프레임워크는 생성 품질을 향상시킬 뿐만 아니라 모델에 표현 능력을 부여합니다. 또한, 경량의 인과적 어텐션 변형과 매개변수가 없는 회전 기반 시간 조건 메커니즘을 도입하여 학습 및 추론 효율성을 향상시킵니다. 광범위한 실험을 통해 GPDiT가 비디오 생성 품질, 비디오 표현 능력 및 소수 샷 학습 작업에서 강력한 성능을 달성함을 보여주며, 연속 공간에서의 비디오 모델링을 위한 효과적인 프레임워크로서의 잠재력을 강조합니다.