Cet article souligne que malgré les progrès des modèles génératifs basés sur la diffusion, l'animation de portraits peine encore à générer des vidéos temporellement cohérentes et à utiliser des taux d'échantillonnage lents en raison d'un échantillonnage répétitif. En réponse, nous présentons FLOAT, une méthode de génération de portraits interactifs audio basée sur un modèle génératif de correspondance de flux. En exploitant un espace latent de mouvement orthogonal appris plutôt qu'un espace latent basé sur les pixels, nous permettons une génération efficace et un montage de mouvement temporellement cohérent. Ceci est réalisé en introduisant un estimateur de champ vectoriel basé sur un transformateur et un mécanisme efficace de conditionnement image par image, et nous prenons en charge le renforcement émotionnel basé sur la parole pour intégrer les mouvements expressifs naturels. Les résultats expérimentaux démontrent que notre méthode surpasse les méthodes de portraits interactifs audio existantes en termes de qualité visuelle, de fidélité du mouvement et d'efficacité.