Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

De la reutilización a la previsión: Aceleración de los modelos de difusión con TaylorSeers

Created by
  • Haebom

Autor

Jiacheng Liu, Chang Zou, Yuanhuiyi Lyu, Junjie Chen, Linfeng Zhang

Describir

Este artículo propone TaylorSeer para abordar el alto costo computacional del Transformador de Difusión (DiT), que destaca en la síntesis de imágenes y video de alta resolución. Los métodos actuales de almacenamiento en caché de características presentan un mayor error debido a la disminución de la similitud de características en intervalos de tiempo amplios. TaylorSeer supera esta limitación prediciendo características en pasos de tiempo futuros basándose en los valores de características de pasos de tiempo anteriores. Aprovecha el cambio lento y continuo de características a lo largo de los pasos de tiempo para aproximar derivadas de orden superior mediante la expansión de series de Taylor y predecir características futuras. Los resultados experimentales demuestran que TaylorSeer alcanza altas tasas de aceleración en la síntesis de imágenes y video, alcanzando aceleraciones de 4.99x y 5.00x con prácticamente ninguna pérdida de rendimiento en FLUX y HunyuanVideo, respectivamente. En DiT, alcanza una aceleración de 4.53x mientras reduce la FID en 3.41x en comparación con el rendimiento de vanguardia anterior.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método de predicción de características que aborda eficazmente el problema del costo computacional de DiT.
Demostración de la eficiencia y precisión de la predicción de características futuras utilizando la expansión de la serie de Taylor.
Consiga altas tasas de aceleración y un excelente rendimiento en la síntesis de imágenes y vídeos.
Ampliación de las posibilidades de aplicaciones en tiempo real a través de un rendimiento de alta velocidad casi sin pérdidas.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Se necesita evaluar la aplicabilidad y el desempeño de varios modelos de difusión.
Posible degradación de la precisión de la predicción de características para intervalos de tiempo muy grandes.
👍