Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MIDAS: Síntesis digital-humana interactiva multimodal mediante generación de vídeo autorregresivo en tiempo real

Created by
  • Haebom

Autor

Ming Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Songlin Tang, Jiwen Liu, Borui Liao, Hejia Chen, Xiaoqiang Liu, Pengfei Wan

Describir

Este artículo presenta un marco para la generación de video digital interactivo de humanos en tiempo real. Para abordar el alto costo computacional y la limitada controlabilidad de los métodos existentes, proponemos un método autorregresivo de generación de video capaz de inferencia de baja latencia. Con una mínima modificación de un modelo de lenguaje a gran escala (LLM), acepta diversas codificaciones condicionales, incluyendo audio, pose y texto, y genera representaciones espacial y semánticamente consistentes que guían el proceso de eliminación de ruido de un modelo de difusión. Se construye un conjunto de datos de conversación a gran escala de aproximadamente 20,000 horas para el entrenamiento del modelo, y se introduce un autocodificador compresivo profundo con relaciones de compresión de hasta 64x para reducir eficazmente la carga de inferencia a largo plazo del modelo autorregresivo. Este enfoque demuestra baja latencia, alta eficiencia y controlabilidad multimodal de grano fino en diversos experimentos, incluyendo conversación bidireccional, síntesis humana multilingüe y modelos de mundo interactivos.

Takeaways, Limitations

Takeaways:
Presentando nuevas posibilidades para crear videos humanos digitales que puedan interactuar en tiempo real.
Controlabilidad sofisticada utilizando diversas modalidades (audio, pose, texto)
Lograr inferencias de baja latencia y alta eficiencia utilizando autocodificadores de compresión profunda.
Reflejar escenarios de conversaciones del mundo real mediante la creación de un conjunto de datos de conversaciones a gran escala
Limitations:
Es necesaria una evaluación más profunda del rendimiento de generalización del método propuesto.
Es necesario realizar un análisis para abordar la posible pérdida de información y la degradación de la calidad de la imagen que pueden ocurrir durante el proceso de compresión.
Falta de descripción detallada de la composición y calidad del conjunto de datos de conversación de 20.000 horas.
Es necesario un análisis comparativo más detallado con otros métodos de última generación.
👍