Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Yume es un proyecto que busca generar mundos interactivos, realistas y dinámicos mediante imágenes, texto o vídeos. Los usuarios pueden explorar y controlar estos mundos mediante periféricos o señales neuronales. En este artículo, presentamos un prototipo de Yume que genera mundos dinámicos a partir de imágenes de entrada y permite la exploración del mundo mediante la manipulación del teclado. Para la generación de mundos de vídeo interactivos de alta calidad, presentamos un marco bien diseñado que consta de cuatro componentes principales: cuantificación del movimiento de la cámara, arquitectura de generación de vídeo, muestreador avanzado y aceleración de modelos. Las principales características técnicas incluyen la cuantificación del movimiento de la cámara para un entrenamiento estable y una entrada de teclado intuitiva, el Transformador de Difusión de Vídeo Enmascarado (MVDT) con módulo de memoria para la generación de vídeo infinito de forma autorregresiva, el Mecanismo Antiartefactos (AAM) y el Muestreo de Viaje en el Tiempo basado en Ecuaciones Diferenciales Estocásticas (SDE) (TTS-SDE) que no requiere entrenamiento para una mejor calidad visual y un control más preciso, y la aceleración de modelos mediante la optimización sinérgica de los mecanismos de destilación y almacenamiento en caché adversariales. Entrenamos a Yume con Sekai, un conjunto de datos de exploración mundial de alta calidad, y obtuvimos resultados extraordinarios en diversos escenarios y aplicaciones. Todos los datos, el código base y las ponderaciones del modelo están disponibles en https://github.com/stdstu12/YUME , y Yume se actualizará mensualmente.