Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FLOAT : Correspondance de flux latent de mouvement génératif pour un portrait parlant piloté par l'audio

Created by
  • Haebom

Auteur

Taekyung Ki, Dongchan Min, Gyeongsu Chae

Contour

Cet article souligne que malgré les progrès des modèles génératifs basés sur la diffusion, l'animation de portraits peine encore à générer des vidéos temporellement cohérentes et à utiliser des taux d'échantillonnage lents en raison d'un échantillonnage répétitif. En réponse, nous présentons FLOAT, une méthode de génération de portraits interactifs audio basée sur un modèle génératif de correspondance de flux. En exploitant un espace latent de mouvement orthogonal appris plutôt qu'un espace latent basé sur les pixels, nous permettons une génération efficace et un montage de mouvement temporellement cohérent. Ceci est réalisé en introduisant un estimateur de champ vectoriel basé sur un transformateur et un mécanisme efficace de conditionnement image par image, et nous prenons en charge le renforcement émotionnel basé sur la parole pour intégrer les mouvements expressifs naturels. Les résultats expérimentaux démontrent que notre méthode surpasse les méthodes de portraits interactifs audio existantes en termes de qualité visuelle, de fidélité du mouvement et d'efficacité.

Takeaways, Limitations

Takeaways:
Nous démontrons qu'une génération de vidéos de portrait interactives basées sur l'audio, efficace et temporellement cohérente, est possible en exploitant un modèle génératif de correspondance de flux et un espace latent de mouvement orthogonal.
Génération d'images de haute qualité possible grâce à un estimateur de champ vectoriel basé sur un transformateur et un mécanisme de conditionnement image par image.
Créez des vidéos plus naturelles et expressives grâce à l’amélioration des émotions basée sur la voix.
Qualité visuelle, fidélité du mouvement et efficacité améliorées par rapport aux méthodes existantes.
Limitations:
L’article manque de références spécifiques à Limitations ou aux orientations de recherche futures.
Une évaluation plus approfondie des performances de généralisation et de la robustesse de la méthode proposée à diverses conditions (par exemple, changements d’éclairage, changements d’arrière-plan) est nécessaire.
Manque de description détaillée de l'ensemble de données utilisé et du processus d'apprentissage.
👍