Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DFVEdit: Vector de flujo delta condicional para edición de video de toma cero

Created by
  • Haebom

Autor

Lingling Cai, Kang Zhao, Hangjie Yuan, Xiang Wang, Yingya Zhang, Kejie Huang

Describir

En este artículo, presentamos DFVEdit, un método eficiente de edición de video de disparo cero para Transformadores de Difusión de Video (Video DiTs). Mientras que los métodos de edición de video existentes requieren corrección o ajuste fino de la atención, lo cual requiere amplios recursos computacionales al aplicarse a Video DiTs, DFVEdit resuelve estos problemas manipulando directamente variables latentes limpias mediante la transformación de flujo. Integramos la edición y el muestreo desde una perspectiva de flujo continuo, proponemos vectores de flujo delta condicionales (CDFV), que son estimadores de DFV teóricamente insesgados, e integramos la guía de atención cruzada implícita (ICA) y la mejora de la incrustación (ER) para mejorar la calidad de la edición. Demostramos experimentalmente que DFVEdit alcanza una velocidad de inferencia al menos 20 veces mayor y una reducción de memoria del 85 % en comparación con los métodos de edición basados ​​en ingeniería de la atención, y se puede aplicar sin problemas a Video DiTs populares como CogVideoX y Wan2.1. Logra un rendimiento de vanguardia en términos de fidelidad estructural, coherencia espaciotemporal y calidad de edición.

Takeaways, Limitations

Takeaways:
Presentamos un método eficiente de edición de vídeo de disparo cero para Video DiTs.
Se logró una mejora de la velocidad de inferencia de 20x o más y una reducción de memoria del 85% en comparación con los métodos existentes.
Aplicable a varios Video DiTs como CogVideoX, Wan2.1, etc.
Lograr un rendimiento de última generación en términos de fidelidad estructural, consistencia espaciotemporal y calidad de edición.
Una nueva perspectiva que integra la edición y el muestreo desde una perspectiva de flujo continuo.
Limitations:
El método presentado en este artículo carece de referencia específica a Limitations. Se requieren experimentos o análisis adicionales para aclarar Limitations (p. ej., degradación del rendimiento en ciertos tipos de edición, limitaciones de aplicabilidad a ciertos DiT de vídeo, etc.).
👍