SplitMeanFlow: Interval Splitting Consistency in Few-Step Generative Modeling
Created by
Haebom
저자
Yi Guo, Wei Wang, Zhihang Yuan, Rong Cao, Kuan Chen, Zhengyang Chen, Yuanyuan Huo, Yang Zhang, Yuping Wang, Shouda Liu, Yuxuan Wang
개요
본 논문은 기존의 Flow Matching 기반 생성 모델의 계산 비용이 높은 반복적 샘플링 과정의 문제점을 해결하기 위해, 노이즈를 데이터로 직접 매핑하는 평균 속도장 학습에 초점을 맞춘 연구입니다. 특히 기존의 MeanFlow 모델이 미분 항등식을 통해 평균 속도장을 학습하는 것에 대한 한계를 지적하고, 정적분의 가산성을 활용하여 새로운 대수적 항등식인 "Interval Splitting Consistency"를 제시합니다. 이 항등식을 기반으로, 미분 연산자 없이 평균 속도장의 자기 참조 관계를 설정하는 새로운 학습 프레임워크인 SplitMeanFlow를 제안합니다. SplitMeanFlow는 MeanFlow의 미분 항등식을 구간 분할이 무한히 작아지는 극한으로써 회복할 수 있음을 증명하며, 더 일반적이고 효율적인 접근법임을 보여줍니다. JVP 계산이 필요 없어 구현이 간단하고, 훈련이 안정적이며, 하드웨어 호환성이 넓다는 실용적인 장점도 가지고 있습니다. 실제로 대규모 음성 합성 제품(Doubao 등)에 적용되어 20배의 속도 향상을 달성했습니다.
시사점, 한계점
•
시사점:
◦
기존 MeanFlow의 미분 기반 접근 방식보다 더 일반적이고 효율적인 평균 속도장 학습 프레임워크인 SplitMeanFlow 제시.
◦
JVP 계산 불필요로 인한 구현 단순화, 훈련 안정성 향상, 하드웨어 호환성 확대.
◦
대규모 음성 합성 제품에 적용되어 속도 향상(20배)을 실제로 검증.
◦
정적분의 가산성을 이용한 새로운 대수적 항등식 "Interval Splitting Consistency" 제시.
•
한계점:
◦
본 논문에서 제시된 SplitMeanFlow의 성능이 다양한 생성 모델 및 데이터셋에 대해 얼마나 일반화될 수 있는지에 대한 추가적인 연구 필요.
◦
Interval Splitting Consistency의 이론적 한계 및 적용 가능한 문제 영역의 범위에 대한 추가적인 분석 필요.