Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Terminal Velocity Matching

Created by
  • Haebom
Category
Empty

저자

Linqi Zhou, Mathias Parger, Ayaan Haque, Jiaming Song

개요

Terminal Velocity Matching (TVM)은 flow matching의 일반화로, 고품질의 1단계 및 소수 단계 생성 모델링을 가능하게 한다. TVM은 두 확산 시간 단계 사이의 전환을 모델링하며, 초기 시간이 아닌 종단 시간에 동작을 정규화한다. TVM은 모델이 립시츠 연속일 때 데이터와 모델 분포 간의 $2$-Wasserstein 거리에 대한 상한을 제공한다. Diffusion Transformer는 이 속성을 갖지 않기 때문에, 안정적인 단일 단계 훈련을 달성하는 최소한의 아키텍처 변경을 도입한다. TVM의 실용성을 위해 Jacobian-Vector Products에 대한 역전파를 지원하고 Transformer 아키텍처에 잘 맞는 융합된 어텐션 커널을 개발했다. ImageNet-256x256에서 TVM은 단일 함수 평가 (NFE)로 3.29 FID를, 4 NFE로 1.99 FID를 달성했다. ImageNet-512x512에서도 4.32 1-NFE FID 및 2.94 4-NFE FID를 달성하여 1/소수 단계 모델에 대한 최첨단 성능을 나타낸다.

시사점, 한계점

시사점:
1단계 및 소수 단계 생성 모델링에서 뛰어난 성능 달성.
ImageNet-256x256 및 ImageNet-512x512에서 최첨단 FID 점수 기록.
단일 단계 훈련이 가능한 아키텍처 제시.
Transformer 아키텍처에 효율적인 융합된 어텐션 커널 개발.
한계점:
Diffusion Transformer의 립시츠 연속성 결여 문제 해결을 위한 추가적인 아키텍처 변경 필요.
👍