Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Separar el movimiento de la apariencia: personalizar el movimiento mediante la personalización de modelos de difusión de texto a vídeo

Created by
  • Haebom

Autor

Huijie Liu, Jingyun Wang, Shuai Ma, Jie Hu, Xiaoming Wei, Guoliang Kang

Describir

Este artículo aborda la personalización del movimiento, que genera vídeos con conceptos de movimiento especificados por un conjunto de videoclips con el mismo concepto mediante un modelo de difusión (DM). Estudios previos han explorado diversos métodos para representar e integrar conceptos de movimiento en modelos de difusión de texto a vídeo preentrenados a gran escala (p. ej., aprendizaje de LoRA de movimiento y uso de residuos de ruido latente). Sin embargo, estos métodos inevitablemente codifican la apariencia de los vídeos de referencia, lo que debilita la capacidad de generación de apariencias. Este artículo sigue el enfoque común de aprendizaje de LoRA de movimiento para codificar conceptos de movimiento, pero propone dos estrategias novedosas: refinamiento de la atención temporal (TAP) y autopistas de apariencia (AH) para mejorar la separación entre acción y apariencia. En TAP, asumimos que las incrustaciones de valor preentrenadas son suficientes para generar nuevos movimientos. Reconstruimos las incrustaciones de valor reconstruyendo la atención temporal únicamente a partir de LoRA de movimiento para generar nuevos movimientos. En AH, cambiamos el punto de inicio de cada conexión de salto en la U-Net de la salida de cada módulo de atención temporal a la salida de cada módulo de atención espacial. Los resultados experimentales muestran que el método propuesto puede generar vídeos con apariencias más consistentes con las descripciones de texto y movimientos más consistentes con los vídeos de referencia que los estudios existentes.

Takeaways, Limitations

Takeaways: Demostramos que las estrategias de refinamiento de la atención temporal (TAP) y autopista de apariencias (AH) logran una mejor separación entre acción y apariencia que los métodos existentes, lo que permite la generación de videos con apariencias consistentes con las descripciones textuales y acciones consistentes con los videos de referencia. Esto contribuye al campo de la personalización del movimiento mediante modelos de difusión.
Limitations: La eficacia de las estrategias TAP y AH podría limitarse a ciertos tipos de modelos de difusión y conjuntos de datos. Se requieren experimentos adicionales con diversos modelos de difusión y conjuntos de datos. Además, se requieren evaluaciones del rendimiento de generalización para vídeos con movimientos extremadamente complejos o diversos.
👍