Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Yan: Generación fundamental de vídeo interactivo

Created by
  • Haebom

Autor

Deheng Ye, Fangyun Zhou, Jiacheng Lv, Jianqi Ma, Jun Zhang, Junyan Lv, Junyou Li, Minwen Deng, Mingyu Yang, Qiang Fu, Wei Yang, Wenkai Lv, Yangbin Yu, Yewen Wang, Yonghang Guan, Zhihao Hu, Zhongbin Fang, Zhongqian Sun

Describir

Yan es un marco fundamental para la generación de video interactivo que abarca todo el proceso de simulación, generación y edición. Consta de tres módulos principales. Para simulaciones de nivel AAA, diseñamos un 3D-VAE de alta compresión y baja latencia, y un proceso de inferencia de eliminación de ruido basado en caché KV con desplazamiento de ventana para lograr una simulación interactiva en tiempo real de 1080p/60 fps. Para la generación multimodal, introducimos un método de subtitulado autorregresivo jerárquico que integra el conocimiento específico del juego en un modelo de difusión de video multimodal (VDM) de dominio abierto y luego transforma el VDM en un generador de video cuadro a cuadro, controlado por acción, en tiempo real e infinitamente interactivo. Incluso cuando el texto y las indicaciones visuales provienen de dominios diferentes, el modelo demuestra una sólida generalización y permite una combinación y composición flexible de estilos y mecanismos interdominio basados en las indicaciones del usuario. Para la edición multigranular, proponemos un modelo híbrido que separa explícitamente la simulación de mecanismos interactivos y la renderización visual, lo que permite la edición multigranular de contenido de video durante la interacción basada en texto. Al integrar estos módulos, Yan transforma la generación de video interactivo, pasando de una función aislada a un paradigma integral de creación interactiva basado en IA, allanando el camino para la próxima generación de herramientas creativas, medios y entretenimiento.

Takeaways, Limitations

Takeaways:
Simulación de video interactiva en tiempo real con calidad AAA de 1080P/60FPS.
Generar vídeos interactivos multimodales (texto, imagen) utilizando conocimiento específico del juego.
Mezcla y composición flexible de estilos y mecanismos de dominio cruzado.
Proporciona capacidades de edición de contenido de video de múltiples granos basadas en texto.
Presentando un paradigma de creación de contenido interactivo basado en IA.
Limitations:
Con base en la información disponible hasta la fecha, es difícil determinar el Limitations específico. Se requiere mayor investigación para descubrir las limitaciones de rendimiento del modelo, los requisitos de recursos computacionales y las limitaciones de generalización.
Se necesita más información en la página del proyecto.
👍