Cet article propose TaylorSeer pour pallier le coût de calcul élevé du transformateur de diffusion (DiT), qui excelle dans la synthèse d'images et de vidéos haute résolution. Les méthodes existantes de mise en cache des caractéristiques souffrent d'une augmentation des erreurs due à une diminution de la similarité des caractéristiques à de grands intervalles de temps. TaylorSeer surmonte cette limitation en prédisant les caractéristiques aux pas de temps futurs à partir des valeurs des caractéristiques des pas de temps précédents. Il exploite l'évolution lente et continue des caractéristiques au fil du temps pour approximer les dérivées d'ordre supérieur par développement en série de Taylor et prédire les caractéristiques futures. Les résultats expérimentaux démontrent que TaylorSeer atteint des taux d'accélération élevés en synthèse d'images et de vidéos, atteignant des accélérations de 4,99x et 5,00x avec une perte de performance quasi nulle sur FLUX et HunyuanVideo, respectivement. En DiT, il atteint une accélération de 4,53x tout en réduisant le FID de 3,41x par rapport aux performances de pointe précédentes.