Cet article se concentre sur les avantages des modèles vidéo autorégressifs par rapport aux modèles de diffusion bidirectionnelle pour la génération de contenu vidéo interactif et la prise en charge des applications de streaming de longueur arbitraire. Nous présentons Next-Frame Diffusion (NFD), un transformateur de diffusion autorégressif qui intègre l'attention causale par bloc pour permettre une inférence efficace grâce à un échantillonnage itératif et une génération parallèle de jetons dans chaque image. Pour relever les défis de la génération vidéo en temps réel, nous étendons la distillation de cohérence spécifique au modèle vidéo afin de permettre une inférence efficace avec moins d'étapes d'échantillonnage, et proposons un échantillonnage prédictif exploitant le fait que les images adjacentes partagent souvent la même entrée d'action. Grâce à des expériences de référence à grande échelle de génération vidéo conditionnelle à l'action, nous démontrons que NFD surpasse les modèles de base autorégressifs en termes de qualité visuelle et d'efficacité d'échantillonnage, et obtenons la première génération vidéo autorégressive à plus de 30 images par seconde sur un GPU A100 utilisant un modèle de 310 millions de paramètres.