Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los modelos de difusión son secretamente intercambiables: paralelización de DDPM mediante autoespeculación

Created by
  • Haebom

Autor

Hengyuan Hu, Aniket Das, Dorsa Sadigh, Nima Anari

Describir

Este artículo aprovecha la relación entre los DDPM y la localización probabilística para superar el cuello de botella de la inferencia en los modelos probabilísticos de difusión (DDPM) con denoising. Al demostrar que la incrementalidad de los DDPM satisface la propiedad de intercambiabilidad, demostramos que diversas técnicas de optimización del rendimiento basadas en modelos autorregresivos pueden aplicarse al entorno de difusión. En concreto, proponemos la «Decodificación Predictiva Automática» (ASD), una extensión del algoritmo de decodificación predictiva, ampliamente utilizado para DDPM, sin necesidad de modelos auxiliares. Demostramos mediante análisis teórico que la ASD logra una aceleración de $\tilde{O}(K^{\frac{1}{3}})$ en la ejecución paralela en comparación con los DDPM secuenciales de K etapas, y demostramos experimentalmente que acelera significativamente la inferencia de DDPM en diversas aplicaciones.

Takeaways, Limitations

Takeaways:
Presentamos ASD, un nuevo algoritmo que mejora drásticamente la velocidad de inferencia de los DDPM.
Proporcionamos un marco general para aplicar técnicas de optimización de modelos autorregresivos a DDPM.
El análisis teórico apoya la aceleración del TEA.
Verificar experimentalmente la eficacia del TEA en diversos campos.
Limitations:
Aunque las mejoras de rendimiento de ASD se basan en análisis teóricos y resultados experimentales, no garantizan el mismo nivel de aceleración para todos los DDPM y en todas las situaciones.
La aceleración $\tilde{O} (K^{\frac{1}{3}})$ es un máximo teórico y el rendimiento real puede variar según la implementación y el hardware.
Es posible que este documento no proporcione una descripción detallada de los detalles de implementación de ASD.
👍