Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mezcla de contextos para la generación de vídeos largos

Created by
  • Haebom

Autor

Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein

Describir

Los modelos para la generación de video a largo plazo se enfrentan a un problema fundamental de memoria contextual a largo plazo: el mantenimiento y la recuperación de contextos a largo plazo. La aplicación de transformadores de difusión a la generación de video a largo plazo se ve limitada por el coste cuadrático de la autoatención. Para abordar este problema, este artículo lo trata como una tarea interna de recuperación de información y propone un módulo de enrutamiento de atención dispersa, sencillo y fácil de aprender, denominado Mezcla de Contextos (MoC), un eficaz motor de búsqueda de memoria a largo plazo. En MoC, cada consulta selecciona dinámicamente fragmentos ricos en información y anclas esenciales (subtítulos, ventanas locales) en los que centrar la atención. Esto utiliza enrutamiento causal para evitar cierres de bucle. Al aumentar el tamaño de los datos y dispersar progresivamente el enrutamiento, el modelo asigna la computación a registros clave, preservando identidades, acciones y escenas a lo largo de varios minutos de contenido. Este enfoque basado en la búsqueda logra eficiencia (escalamiento casi lineal), permite el aprendizaje práctico y la síntesis, y presenta memoria y consistencia a escala de minutos.

Takeaways, Limitations

Takeaways:
Solución del problema de generación de vídeo a largo plazo redefiniéndolo como recuperación de información interna.
Resuelva de manera eficiente problemas de memoria a largo plazo implementando la atención dispersa a través del módulo MoC.
Mantenga la coherencia de la identidad, la acción y las escenas en la creación de videos minuto a minuto.
Permite el aprendizaje práctico y la síntesis con computación eficiente.
Limitations:
No hay ninguna mención específica de Limitations en el documento.
👍