Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Terminal Velocity Matching

Created by
  • Haebom
Category
Empty

저자

Linqi Zhou, Mathias Parger, Ayaan Haque, Jiaming Song

개요

본 논문은 고품질의 1-step 및 few-step 생성 모델링을 가능하게 하는 Flow Matching의 일반화된 방식인 Terminal Velocity Matching (TVM)을 제안합니다. TVM은 두 확산 타임스텝 간의 전이를 모델링하며, 초기 시간이 아닌 terminal 시간에 동작을 정규화합니다. 모델이 Lipschitz 연속성을 만족할 때 TVM이 데이터와 모델 분포 간의 $2$-Wasserstein 거리에 대한 상한을 제공함을 증명합니다. 또한, Diffusion Transformers의 Lipschitz 연속성 부재를 해결하기 위해 안정적인 single-stage 학습을 달성하는 최소한의 아키텍처 변경 사항을 제시합니다. 효율성을 위해, Jacobian-Vector Products에 대한 backward pass를 지원하는 fused attention kernel을 개발하여 transformer 아키텍처에 적합하게 확장합니다. ImageNet-256x256에서 TVM은 단일 function evaluation (NFE)으로 3.29 FID, 4 NFE로 1.99 FID를 달성했으며, ImageNet-512x512에서도 1-NFE FID 4.32, 4-NFE FID 2.94를 달성하여 one/few-step 모델 분야에서 최고 성능을 보였습니다.

시사점, 한계점

시사점:
1-step 및 few-step 생성 모델링 분야에서 state-of-the-art 성능 달성.
Diffusion Transformers의 한계를 극복하기 위한 아키텍처 변경 제안.
효율적인 학습을 위한 fused attention kernel 개발.
Wasserstein 거리 상한을 통한 모델 품질 보장.
한계점:
Diffusion Transformers의 Lipschitz 연속성 문제로 인한 추가적인 아키텍처 변경 필요.
👍