Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers

Created by
  • Haebom

저자

Jiacheng Liu, Chang Zou, Yuanhuiyi Lyu, Junjie Chen, Linfeng Zhang

개요

본 논문은 고해상도 이미지 및 비디오 합성에서 뛰어난 성능을 보이는 Diffusion Transformer (DiT)의 높은 연산 비용 문제를 해결하기 위해 TaylorSeer를 제안합니다. 기존의 feature caching 방식은 시간 간격이 클 때 feature 유사성 감소로 인해 오류가 증가하는 한계를 가지는데, TaylorSeer는 이를 해결하기 위해 이전 시간 단계의 feature 값을 기반으로 미래 시간 단계의 feature를 예측하는 방법을 제시합니다. 시간 단계에 걸쳐 feature가 느리고 연속적으로 변화한다는 점을 이용하여 Taylor 급수 전개를 통해 고차 미분을 근사하고 미래 feature를 예측합니다. 실험 결과, 이미지 및 비디오 합성에서 높은 가속 비율을 달성하며, 특히 FLUX와 HunyuanVideo에서는 거의 손실 없는 4.99배 및 5.00배의 가속을 달성했습니다. DiT에서는 기존 최고 성능보다 FID를 3.41 낮추면서 4.53배의 가속을 달성했습니다.

시사점, 한계점

시사점:
DiT의 연산 비용 문제를 효과적으로 해결하는 새로운 feature 예측 방법 제시.
Taylor 급수 전개를 이용한 미래 feature 예측의 효율성과 정확성 입증.
이미지 및 비디오 합성에서 높은 가속 비율과 우수한 성능 달성.
거의 손실 없는 고속화를 통해 실시간 응용 가능성 확대.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 diffusion model에 대한 적용 가능성 및 성능 평가 필요.
매우 큰 시간 간격에 대한 feature 예측 정확도 저하 가능성.
👍