Terminal Velocity Matching (TVM)은 flow matching의 일반화로, 고품질의 1단계 및 소수 단계 생성 모델링을 가능하게 한다. TVM은 두 확산 시간 단계 사이의 전환을 모델링하며, 초기 시간이 아닌 종단 시간에 동작을 정규화한다. TVM은 모델이 립시츠 연속일 때 데이터와 모델 분포 간의 $2$-Wasserstein 거리에 대한 상한을 제공한다. Diffusion Transformer는 이 속성을 갖지 않기 때문에, 안정적인 단일 단계 훈련을 달성하는 최소한의 아키텍처 변경을 도입한다. TVM의 실용성을 위해 Jacobian-Vector Products에 대한 역전파를 지원하고 Transformer 아키텍처에 잘 맞는 융합된 어텐션 커널을 개발했다. ImageNet-256x256에서 TVM은 단일 함수 평가 (NFE)로 3.29 FID를, 4 NFE로 1.99 FID를 달성했다. ImageNet-512x512에서도 4.32 1-NFE FID 및 2.94 4-NFE FID를 달성하여 1/소수 단계 모델에 대한 최첨단 성능을 나타낸다.