본 논문은 고해상도 이미지 및 비디오 합성에서 뛰어난 성능을 보이는 Diffusion Transformer (DiT)의 높은 연산 비용 문제를 해결하기 위해 TaylorSeer를 제안합니다. 기존의 feature caching 방식은 시간 간격이 클 때 feature 유사성 감소로 인해 오류가 증가하는 한계를 가지는데, TaylorSeer는 이를 해결하기 위해 이전 시간 단계의 feature 값을 기반으로 미래 시간 단계의 feature를 예측하는 방법을 제시합니다. 시간 단계에 걸쳐 feature가 느리고 연속적으로 변화한다는 점을 이용하여 Taylor 급수 전개를 통해 고차 미분을 근사하고 미래 feature를 예측합니다. 실험 결과, 이미지 및 비디오 합성에서 높은 가속 비율을 달성하며, 특히 FLUX와 HunyuanVideo에서는 거의 손실 없는 4.99배 및 5.00배의 가속을 달성했습니다. DiT에서는 기존 최고 성능보다 FID를 3.41 낮추면서 4.53배의 가속을 달성했습니다.