Flow-GRPO: Training Flow Matching Models via Online RL
Created by
Haebom
Category
Empty
저자
Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
개요
Flow-GRPO는 온라인 정책 경사 강화 학습(RL)을 flow matching 모델에 통합하는 최초의 방법론이다. ODE-to-SDE 변환을 통해 결정적 ODE를 등가 SDE로 변환하여 RL 탐색을 위한 통계적 샘플링을 가능하게 하고, Denoising Reduction 전략을 통해 훈련 노이즈 제거 단계를 줄여 샘플링 효율성을 향상시킨다. Flow-GRPO는 다양한 text-to-image 작업에서 효과적이며, 특히 구성적 생성에서 객체 수, 공간 관계 및 세부 속성을 거의 완벽하게 생성하여 GenEval 정확도를 크게 향상시켰다. 시각적 텍스트 렌더링에서도 정확도가 향상되었으며, 인간 선호도 정렬에서도 상당한 이득을 얻었다.