Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FLOAT: Correspondencia de flujo latente de movimiento generativo para retratos hablados basados en audio

Created by
  • Haebom

Autor

Taekyung Ki, Dongchan Min, Gyeongsu Chae

Describir

Este artículo destaca que, a pesar de los avances en modelos generativos basados en la difusión, la animación de retratos aún presenta dificultades con la generación de video con coherencia temporal y las bajas frecuencias de muestreo debido al muestreo repetitivo. En respuesta, presentamos FLOAT, un método de generación de retratos interactivos basado en audio y basado en un modelo generativo de coincidencia de flujo. Al aprovechar un espacio latente de movimiento ortogonal aprendido en lugar de un espacio latente basado en píxeles, permitimos una generación eficiente y una edición de movimiento con coherencia temporal. Esto se logra mediante la introducción de un estimador de campo vectorial basado en transformadores y un mecanismo eficaz de condicionamiento cuadro por cuadro, y apoyamos el refuerzo emocional basado en el habla para integrar movimientos expresivos naturales. Los resultados experimentales demuestran que nuestro método supera a los métodos existentes de retratos interactivos basados en audio en términos de calidad visual, fidelidad de movimiento y eficiencia.

Takeaways, Limitations

Takeaways:
Demostramos que es posible generar videos de retratos interactivos basados en audio de manera eficiente y temporalmente consistente aprovechando un modelo generativo de coincidencia de flujo y un espacio latente de movimiento ortogonal.
Es posible generar imágenes de alta calidad mediante un estimador de campo vectorial basado en transformador y un mecanismo de acondicionamiento cuadro por cuadro.
Cree vídeos más naturales y expresivos con mejora de emociones basada en voz.
Calidad visual mejorada, fidelidad de movimiento y eficiencia en comparación con los métodos existentes.
Limitations:
El artículo carece de Limitations específicos o direcciones de investigación futuras.
Es necesario realizar una evaluación más profunda del rendimiento de generalización del método propuesto y de su robustez ante diversas condiciones (por ejemplo, cambios de iluminación, cambios de fondo).
Falta de descripción detallada del conjunto de datos utilizado y del proceso de aprendizaje.
👍