Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Jouer avec Transformer à plus de 30 FPS via Next-Frame Diffusion

Created by
  • Haebom

Auteur

Xinle Cheng, Tianyu He, Jiayi Xu, Junliang Guo, Di He, Jiang Bian

Contour

Cet article se concentre sur les avantages des modèles vidéo autorégressifs par rapport aux modèles de diffusion bidirectionnelle pour la génération de contenu vidéo interactif et la prise en charge des applications de streaming de longueur arbitraire. Nous présentons Next-Frame Diffusion (NFD), un transformateur de diffusion autorégressif qui intègre l'attention causale par bloc pour permettre une inférence efficace grâce à un échantillonnage itératif et une génération parallèle de jetons dans chaque image. Pour relever les défis de la génération vidéo en temps réel, nous étendons la distillation de cohérence spécifique au modèle vidéo afin de permettre une inférence efficace avec moins d'étapes d'échantillonnage, et proposons un échantillonnage prédictif exploitant le fait que les images adjacentes partagent souvent la même entrée d'action. Grâce à des expériences de référence à grande échelle de génération vidéo conditionnelle à l'action, nous démontrons que NFD surpasse les modèles de base autorégressifs en termes de qualité visuelle et d'efficacité d'échantillonnage, et obtenons la première génération vidéo autorégressive à plus de 30 images par seconde sur un GPU A100 utilisant un modèle de 310 millions de paramètres.

Takeaways, Limitations_

Takeaways:
Présentation de la possibilité de génération de vidéo en temps réel à l'aide d'un modèle vidéo autorégressif (atteignant plus de 30 FPS).
Améliorez considérablement l'efficacité d'échantillonnage des modèles autorégressifs grâce à des techniques de distillation de cohérence et d'échantillonnage prédictif.
Inférence efficace utilisant l'attention causale au niveau du bloc.
Il surpasse les modèles de base autorégressifs existants dans la génération de vidéos conditionnelles à l'action.
Limitations:
Le problème du coût de calcul élevé pour la génération de vidéos en temps réel existe toujours, et le développement de modèles plus légers peut être nécessaire.
L’efficacité de l’échantillonnage prédictif dépend de la continuité des actions entrées, et les performances peuvent se détériorer lorsque les actions changent fréquemment.
Une évaluation supplémentaire des performances de généralisation de la méthodologie proposée et de ses performances sur d’autres ensembles de données vidéo est nécessaire.
Les résultats sont obtenus à l'aide du GPU A100, les performances sur d'autres environnements matériels peuvent donc varier.
👍