Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Reangle-A-Video: Generación de vídeo 4D como traducción de vídeo a vídeo

Created by
  • Haebom

Autor

Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye

Describir

Reangle-A-Video es un marco integrado para generar videos multivista sincronizados a partir de un único video de entrada. A diferencia de los enfoques convencionales que entrenan modelos de difusión de video multivista en conjuntos de datos 4D a gran escala, nuestro método replantea la tarea de generación de video multivista como una transformación de video a video aprovechando los antecedentes de difusión de imagen y video disponibles públicamente. Reangle-A-Video funciona en dos pasos. Primero, ajusta sincrónicamente un transformador de difusión de imagen a video de forma autosupervisada para extraer movimiento invariante de la vista de un conjunto de videos distorsionados. Segundo, deforma y rellena el primer fotograma del video de entrada con diferentes puntos de vista de cámara utilizando DUSt3R, siguiendo las pautas de consistencia temporal entre vistas inferidas, para generar una imagen inicial consistente con la vista múltiple. Amplios experimentos sobre transferencia de vista estática y control dinámico de cámara demuestran que Reangle-A-Video supera a los métodos existentes, ofreciendo una solución novedosa para la generación de video multivista. El código y los datos se harán públicos.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso y eficiente para generar vídeos de múltiples vistas a partir de una única entrada de vídeo.
Dependencia reducida de grandes conjuntos de datos 4D.
Muestra un mejor rendimiento que los métodos existentes.
Garantizar la reproducibilidad y escalabilidad de la investigación mediante código abierto y la divulgación de datos.
Limitations:
Dependencia de otros modelos como DUSt3R.
Se necesita más investigación sobre el rendimiento de la generalización en diferentes escenarios.
Debido a las limitaciones de los métodos de aprendizaje autosupervisado, existe la posibilidad de una degradación del rendimiento en determinadas situaciones.
👍