Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

De la réutilisation à la prévision : accélérer les modèles de diffusion avec TaylorSeers

Created by
  • Haebom

Auteur

Jiacheng Liu, Chang Zou, Yuanhuiyi Lyu, Junjie Chen, Linfeng Zhang

Contour

Cet article propose TaylorSeer pour pallier le coût de calcul élevé du transformateur de diffusion (DiT), qui excelle dans la synthèse d'images et de vidéos haute résolution. Les méthodes existantes de mise en cache des caractéristiques souffrent d'une augmentation des erreurs due à une diminution de la similarité des caractéristiques à de grands intervalles de temps. TaylorSeer surmonte cette limitation en prédisant les caractéristiques aux pas de temps futurs à partir des valeurs des caractéristiques des pas de temps précédents. Il exploite l'évolution lente et continue des caractéristiques au fil du temps pour approximer les dérivées d'ordre supérieur par développement en série de Taylor et prédire les caractéristiques futures. Les résultats expérimentaux démontrent que TaylorSeer atteint des taux d'accélération élevés en synthèse d'images et de vidéos, atteignant des accélérations de 4,99x et 5,00x avec une perte de performance quasi nulle sur FLUX et HunyuanVideo, respectivement. En DiT, il atteint une accélération de 4,53x tout en réduisant le FID de 3,41x par rapport aux performances de pointe précédentes.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle méthode de prédiction de caractéristiques qui résout efficacement le problème du coût de calcul de DiT.
Démonstration de l'efficacité et de la précision de la prédiction des caractéristiques futures à l'aide du développement de la série de Taylor.
Obtenez des taux d'accélération élevés et d'excellentes performances en synthèse d'images et de vidéos.
ÉLargissement des possibilités d'application en temps réel grâce à des performances à haut débit quasi sans perte.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
L’applicabilité et l’évaluation des performances de divers modèles de diffusion sont nécessaires.
Dégradation possible de la précision de la prédiction des caractéristiques pour des intervalles de temps très longs.
👍