Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

Created by
  • Haebom
Category
Empty

저자

Dor Shmilovich, Tony Wu, Aviad Dahan, Yuval Domb

개요

Diffusion Transformer는 비디오 생성을 위해 뛰어난 품질을 달성하지만, 2차적 어텐션 복잡성으로 인해 지연 시간이 길어진다. 기존 가속화 방법들은 동적 희소 어텐션 패턴 추정 시 계산 오버헤드가 크고, 정적 희소 패턴은 고정되어 있고 종종 비최적이라는 근본적인 trade-off에 직면한다. 본 연구는 diffusion 어텐션의 중요한 구조적 속성, 즉, 희소 패턴이 denoising step 간에 강한 시간적 일관성을 보인다는 것을 발견했다. 이를 바탕으로, LiteAttention을 제안하며, 시간적 일관성을 활용하여 denoising 시퀀스에서 계산을 건너뛸 수 있게 한다. LiteAttention은 불필요한 타일을 조기에 표시하고 skip 결정을 전파함으로써 반복적인 프로파일링 오버헤드 없이 중복된 어텐션 계산을 제거하여 동적 방법의 적응성과 정적 방법의 효율성을 결합한다. FlashAttention 위에 최적화된 LiteAttention 커널을 구현하여, 품질 저하 없이 비디오 diffusion 모델에서 상당한 속도 향상을 입증했다.

시사점, 한계점

시사점:
diffusion 어텐션의 시간적 일관성을 활용한 효율적인 attention 계산 방법 제안.
동적 방법의 적응성과 정적 방법의 효율성을 결합.
비디오 diffusion 모델에서 품질 저하 없이 상당한 속도 향상 달성.
코드 및 구현 세부 사항 공개 예정.
한계점:
해당 논문 자체에는 구체적인 한계점이 명시되지 않음. (추후 공개될 코드 및 구현 세부 사항을 통해 파악 가능)
👍