Sign In

Flow-GRPO: Training Flow Matching Models via Online RL

Created by
  • Haebom
Category
Empty

저자

Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang

개요

Flow-GRPO는 온라인 정책 경사 강화 학습(RL)을 flow matching 모델에 통합하는 최초의 방법론이다. ODE-to-SDE 변환을 통해 결정적 ODE를 등가 SDE로 변환하여 RL 탐색을 위한 통계적 샘플링을 가능하게 하고, Denoising Reduction 전략을 통해 훈련 노이즈 제거 단계를 줄여 샘플링 효율성을 향상시킨다. Flow-GRPO는 다양한 text-to-image 작업에서 효과적이며, 특히 구성적 생성에서 객체 수, 공간 관계 및 세부 속성을 거의 완벽하게 생성하여 GenEval 정확도를 크게 향상시켰다. 시각적 텍스트 렌더링에서도 정확도가 향상되었으며, 인간 선호도 정렬에서도 상당한 이득을 얻었다.

시사점, 한계점

시사점:
온라인 정책 경사 RL을 flow matching 모델에 통합하는 새로운 방법론 제시
구성적 생성, 시각적 텍스트 렌더링, 인간 선호도 정렬에서 성능 향상
GenEval 정확도 및 텍스트 생성 정확도 향상
보상 해킹 발생 거의 없음
한계점:
논문에서 구체적인 한계점 언급되지 않음 (추후 연구 필요)
👍