Bài báo này đề xuất TaylorSeer để giải quyết chi phí tính toán cao của Diffusion Transformer (DiT), một phương pháp vượt trội trong tổng hợp hình ảnh và video có độ phân giải cao. Các phương pháp lưu trữ đặc trưng hiện có bị tăng lỗi do độ tương đồng đặc trưng giảm ở các khoảng thời gian lớn. TaylorSeer khắc phục hạn chế này bằng cách dự đoán các đặc trưng tại các bước thời gian trong tương lai dựa trên các giá trị đặc trưng từ các bước thời gian trước đó. Nó tận dụng sự thay đổi chậm và liên tục của các đặc trưng qua các bước thời gian để ước tính các đạo hàm bậc cao thông qua việc mở rộng chuỗi Taylor và dự đoán các đặc trưng trong tương lai. Kết quả thử nghiệm chứng minh rằng TaylorSeer đạt được tỷ lệ tăng tốc cao trong tổng hợp hình ảnh và video, đạt được gia tốc 4,99x và 5,00x mà hầu như không bị mất hiệu suất trên FLUX và HunyuanVideo. Trong DiT, nó đạt được gia tốc 4,53x trong khi giảm FID 3,41x so với hiệu suất tiên tiến trước đây.