Cet article souligne que malgré les progrès des modèles génératifs basés sur la diffusion, les animations vidéo de portrait peinent encore à générer des vidéos temporellement cohérentes et à effectuer un échantillonnage rapide en raison de l'échantillonnage répétitif. Dans cet article, nous présentons FLOAT, une méthode de génération de portraits vidéo interactifs audio basée sur un modèle génératif cohérent. Elle utilise des espaces latents de mouvement orthogonaux appris au lieu d'espaces latents basés sur les pixels pour permettre une génération et un montage efficaces de mouvements temporellement cohérents. À cette fin, nous introduisons un estimateur de champ vectoriel basé sur un transformateur avec un mécanisme efficace de conditionnement image par image, et prenons en charge le renforcement émotionnel basé sur la parole pour intégrer naturellement les mouvements expressifs. Grâce à des expériences approfondies, nous démontrons que la méthode proposée surpasse les méthodes de portraits interactifs audio de pointe en termes de qualité visuelle, de fidélité du mouvement et d'efficacité.