Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Améliorer la cohérence de la génération de vidéos longues sans réglage

Created by
  • Haebom

Auteur

Xingyao Li, Fengzhuo Zhang, Jiachun Pan, Yunlong Hou, Vincent YF Tan, Zhuoran Yang

Contour

Cet article se concentre sur l'amélioration de la cohérence de la génération de vidéos longues, notamment la fluidité et les transitions entre les scènes. Pour améliorer la cohérence et la cohésion de la génération vidéo utilisant une ou plusieurs invites, nous proposons un algorithme de repondération temporelle de l'attention (TiARA) basé sur la transformée de Fourier discrète à court terme (DSFT). TiARA améliore la cohérence inter-images en modifiant la matrice des scores d'attention par une analyse fréquentielle. De plus, nous identifions des facteurs importants tels que l'alignement des invites pour les vidéos générées avec plusieurs invites et proposons PromptBlend, un pipeline avancé d'interpolation d'invites qui aligne systématiquement les invites. Les résultats expérimentaux confirment l'efficacité de la méthode proposée, montrant des améliorations de performance constantes et significatives par rapport à plusieurs modèles de référence.

Takeaways, Limitations

Takeaways:
Nous appliquons d’abord une méthode basée sur la fréquence dans un modèle de diffusion vidéo pour améliorer la cohérence de la génération vidéo à long terme.
Nous présentons les algorithmes TiARA et PromptBlend, qui contribuent à améliorer la cohérence et la cohésion de la génération vidéo dans les invites simples et multiples.
Nous révélons l’importance de l’alignement rapide dans la génération de vidéos multi-invites et proposons une méthode pour l’améliorer.
L’efficacité de la méthode proposée est démontrée par des expériences sur différents modèles de référence.
Limitations:
Il manque une analyse du coût de calcul et de la complexité de la méthode proposée.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation sur différents types d’ensembles de données vidéo.
Une analyse est nécessaire pour déterminer le potentiel de dégradation des performances pour des types spécifiques d’invites ou de vidéos.
👍