Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FLOAT : Correspondance de flux latent de mouvement génératif pour un portrait parlant piloté par l'audio

Created by
  • Haebom

Auteur

Taekyung Ki, Dongchan Min, Gyeongsu Chae

Contour

Cet article souligne que malgré les progrès des modèles génératifs basés sur la diffusion, les animations vidéo de portrait peinent encore à générer des vidéos temporellement cohérentes et à effectuer un échantillonnage rapide en raison de l'échantillonnage répétitif. Dans cet article, nous présentons FLOAT, une méthode de génération de portraits vidéo interactifs audio basée sur un modèle génératif cohérent. Elle utilise des espaces latents de mouvement orthogonaux appris au lieu d'espaces latents basés sur les pixels pour permettre une génération et un montage efficaces de mouvements temporellement cohérents. À cette fin, nous introduisons un estimateur de champ vectoriel basé sur un transformateur avec un mécanisme efficace de conditionnement image par image, et prenons en charge le renforcement émotionnel basé sur la parole pour intégrer naturellement les mouvements expressifs. Grâce à des expériences approfondies, nous démontrons que la méthode proposée surpasse les méthodes de portraits interactifs audio de pointe en termes de qualité visuelle, de fidélité du mouvement et d'efficacité.

Takeaways, Limitations

Takeaways:
Nous permettons une génération de vidéos de portrait interactives basées sur l'audio, cohérentes dans le temps et efficaces, en exploitant un modèle génératif adapté au flux et un espace latent de mouvement orthogonal.
Génération et édition de mouvement naturel possibles avec un estimateur de champ vectoriel basé sur un transformateur et un mécanisme de conditionnement image par image.
Créez des mouvements expressifs avec une amélioration des émotions basée sur la voix.
Qualité visuelle, fidélité du mouvement et efficacité améliorées par rapport aux méthodes existantes.
Limitations:
L’article manque de références spécifiques à Limitations ou aux orientations de recherche futures.
Il n’est pas clair s’il existe une dépendance à un ensemble de données ou à un environnement matériel spécifique.
Manque de discussion sur les problèmes ou limitations potentiels qui peuvent survenir dans l’application pratique.
👍