Este artículo destaca que, a pesar de los avances en modelos generativos basados en la difusión, la animación de retratos aún presenta dificultades con la generación de video con coherencia temporal y las bajas frecuencias de muestreo debido al muestreo repetitivo. En respuesta, presentamos FLOAT, un método de generación de retratos interactivos basado en audio y basado en un modelo generativo de coincidencia de flujo. Al aprovechar un espacio latente de movimiento ortogonal aprendido en lugar de un espacio latente basado en píxeles, permitimos una generación eficiente y una edición de movimiento con coherencia temporal. Esto se logra mediante la introducción de un estimador de campo vectorial basado en transformadores y un mecanismo eficaz de condicionamiento cuadro por cuadro, y apoyamos el refuerzo emocional basado en el habla para integrar movimientos expresivos naturales. Los resultados experimentales demuestran que nuestro método supera a los métodos existentes de retratos interactivos basados en audio en términos de calidad visual, fidelidad de movimiento y eficiencia.