Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

StreamDiT: Generación de texto a vídeo en tiempo real

Created by
  • Haebom

Autor

Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao

Describir

Este artículo señala que, a pesar de los recientes avances en la generación de texto a vídeo mediante modelos de difusión basados ​​en transformadores a gran escala, los modelos existentes solo generan vídeos cortos y presentan limitaciones en aplicaciones interactivas en tiempo real. En este artículo, proponemos StreamDiT, un modelo de generación de vídeo en streaming en tiempo real. StreamDiT mejora la consistencia del contenido y la calidad de la imagen mediante el aprendizaje basado en la coincidencia de flujo con búferes móviles y el aprendizaje combinado mediante diversos métodos de segmentación de fotogramas de búfer. Adoptamos el modelado basado en adaLN DiT mediante incrustación temporal variacional y atención en ventana, y entrenamos un modelo StreamDiT con 4 mil millones de parámetros. Además, proponemos un método de destilación multietapa personalizado para StreamDiT, que realiza la destilación de muestreo en cada intervalo de segmentación y reduce el número de evaluaciones de funciones para lograr un rendimiento en tiempo real (16 FPS, resolución de 512p). Verificamos el rendimiento mediante indicadores cuantitativos y evaluación humana, y sugerimos su potencial para aplicaciones en tiempo real como la generación de streaming, la generación interactiva y la conversión de vídeo a vídeo.

Takeaways, Limitations

Takeaways:
Proponemos un modelo StreamDiT que permite la generación de vídeo en streaming en tiempo real
Procesamiento en tiempo real de 4 mil millones de modelos de parámetros a 16 FPS
Mejore la consistencia del contenido y la calidad de la imagen mediante aprendizaje combinado y técnicas de destilación en múltiples etapas.
Ofrece una amplia gama de posibilidades de aplicaciones en tiempo real, incluida la creación de streaming, creación de interactividad y conversión de vídeo a vídeo.
Limitations:
El rendimiento está limitado actualmente a una resolución de 512p. Se requiere más investigación para admitir resoluciones más altas.
Se necesitan más investigaciones para determinar la generalización del método de destilación propuesto.
Falta de análisis detallado del coste computacional y del consumo de memoria del modelo.
Se necesita más investigación sobre la robustez para diversas entradas de texto.
👍