Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Prévision : Quand prévoir ? Accélération des modèles de diffusion avec la méthode de Taylor basée sur la confiance

Created by
  • Haebom

Auteur

Xiaoliu Guan, Lielin Jiang, Hanqi Chen, Xu Zhang, Jiaxing Yan, Guanzhong Wang, Yi Liu, Zetao Zhang, Yu Wu

Contour

Cet article propose une nouvelle méthode pour améliorer la vitesse d'inférence des transformateurs de diffusion (DiT). Le TaylorSeer conventionnel met en cache les caractéristiques intermédiaires de tous les blocs de transformateurs et prédit les caractéristiques futures par expansion de Taylor. Cependant, il présente une surcharge mémoire et de calcul importante et ne prend pas en compte la précision des prédictions. Dans cet article, nous réduisons le nombre de caractéristiques mises en cache en déplaçant la cible de prédiction de Taylor vers le dernier bloc et proposons un mécanisme de mise en cache dynamique basé sur l'erreur de prédiction du premier bloc. Cela améliore le compromis entre vitesse et qualité, permettant des gains de vitesse d'inférence de 3,17x, 2,36x et 4,14x pour FLUX, DiT et Wan Video, respectivement.

Takeaways, Limitations

Takeaways:
Résout efficacement la surcharge de mémoire et de calcul élevée du TaylorSeer existant, Limitations.
Ajustez de manière flexible la vitesse d'inférence en fonction de la précision de la prédiction grâce à un mécanisme de mise en cache dynamique.
Des améliorations de vitesse et une conservation de la qualité ont été obtenues sur différents modèles DiT.
Limitations:
L'efficacité de la méthode proposée dépend fortement de l'erreur de prédiction du premier bloc. Les performances peuvent être affectées par la précision de l'estimation de l'erreur.
Seuls les résultats expérimentaux pour des modèles spécifiques (FLUX, DiT, Wan Video) sont présentés, la généralisabilité à d'autres modèles nécessite donc une validation supplémentaire.
Il existe un manque d’informations détaillées sur l’optimisation des paramètres du mécanisme de mise en cache dynamique (par exemple, la tolérance aux erreurs).
👍