Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Yume: Un modelo interactivo de generación de mundos

Created by
  • Haebom

Autor

Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang

Describir

Yume es un proyecto que busca generar mundos interactivos, realistas y dinámicos mediante imágenes, texto o vídeos. Los usuarios pueden explorar y controlar estos mundos mediante periféricos o señales neuronales. En este artículo, presentamos un prototipo de Yume que genera mundos dinámicos a partir de imágenes de entrada y permite la exploración del mundo mediante la manipulación del teclado. Para la generación de mundos de vídeo interactivos de alta calidad, presentamos un marco bien diseñado que consta de cuatro componentes principales: cuantificación del movimiento de la cámara, arquitectura de generación de vídeo, muestreador avanzado y aceleración de modelos. Las principales características técnicas incluyen la cuantificación del movimiento de la cámara para un entrenamiento estable y una entrada de teclado intuitiva, el Transformador de Difusión de Vídeo Enmascarado (MVDT) con módulo de memoria para la generación de vídeo infinito de forma autorregresiva, el Mecanismo Antiartefactos (AAM) y el Muestreo de Viaje en el Tiempo basado en Ecuaciones Diferenciales Estocásticas (SDE) (TTS-SDE) que no requiere entrenamiento para una mejor calidad visual y un control más preciso, y la aceleración de modelos mediante la optimización sinérgica de los mecanismos de destilación y almacenamiento en caché adversariales. Entrenamos a Yume con Sekai, un conjunto de datos de exploración mundial de alta calidad, y obtuvimos resultados extraordinarios en diversos escenarios y aplicaciones. Todos los datos, el código base y las ponderaciones del modelo están disponibles en https://github.com/stdstu12/YUME , y Yume se actualizará mensualmente.

Takeaways, Limitations

Takeaways:
Presentando tecnología para crear mundos virtuales interactivos y realistas utilizando imágenes, texto y videos.
Exploración intuitiva del mundo mediante la entrada del teclado
Creación de videos de alta calidad y control preciso a través de tecnologías innovadoras como MVDT, AAM y TTS-SDE
Aplicación de técnicas de optimización eficientes para la aceleración de modelos
Contribuye a la investigación y el desarrollo al ser publicado como código abierto
Limitations:
La versión actual se basa únicamente en la entrada del teclado y aún no está implementado el control de señales periféricas o neuronales.
Esta es una versión beta y requiere mayor desarrollo antes de implementar la funcionalidad completa.
Falta de una descripción detallada del conjunto de datos de Sekai
Falta de validación de la degradación del rendimiento o problemas de estabilidad que pueden ocurrir durante largos períodos de uso.
👍